fix: handle read-only HF cache folder (#126)

radurogojanumai · web-flow · commit 3e4c26fbd3c5 · 2025-03-20T17:32:05.000+01:00
diff --git a/mostlyai/qa/assets/__init__.py b/mostlyai/qa/assets/__init__.py
@@ -39,10 +39,21 @@ def load_tokenizer():
 
 
 def load_embedder():
+    """
+    Load the embedder model. 
+    Can deal with read-only cache folder by attempting to download the model if it is not locally available.
+    Users can set MOSTLY_HF_HOME environment variable to override the default cache folder.
+    """
     from sentence_transformers import SentenceTransformer
 
     model_name = "sentence-transformers/all-MiniLM-L6-v2"
-    return SentenceTransformer(model_name, cache_folder=os.getenv("MOSTLY_HF_HOME"))
+    cache_folder=os.getenv("MOSTLY_HF_HOME")
+    try:
+        # First try loading from local cache
+        return SentenceTransformer(model_name_or_path=model_name, cache_folder=cache_folder, local_files_only=True)
+    except Exception:
+        # If not found in cache, attempt downloading
+        return SentenceTransformer(model_name_or_path=model_name, cache_folder=cache_folder, local_files_only=False)
 
 
 __all__ = ["load_embedder"]