bittremieuxlab · rukubrakov · Mar 31, 2026 · Mar 4, 2026 · Mar 5, 2026 · Mar 5, 2026
diff --git a/.gitignore b/.gitignore
@@ -86,6 +86,13 @@ lightning_logs/
 data_temp/
 temp/
 
+# output
+test_full_workflow/
+
+# tfs files
+simba/configs/*/tfs*.yaml
+run_scripts_tfs*
+
 # ============================================================================
 # Code Quality Tools
 # ============================================================================

diff --git a/README.md b/README.md
@@ -275,6 +275,38 @@ simba preprocess \
 
 ---
 
+**Reusing Precomputed Distances:**
+
+To speed up preprocessing when working with related datasets (e.g., MS2-only, MS3-only, and joint MS2+MS3), you can reuse previously computed molecular distances:
+
+```bash
+# First: preprocess MS2-only data
+simba preprocess \
+  paths.spectra_path=ms2_spectra.mgf \
+  paths.preprocessing_dir=./ms2_preprocessing/
+
+# Then: preprocess MS3-only data
+simba preprocess \
+  paths.spectra_path=ms3_spectra.mgf \
+  paths.preprocessing_dir=./ms3_preprocessing/
+
+# Finally: preprocess joint dataset, reusing distances from both
+simba preprocess \
+  paths.spectra_path=joint_spectra.mgf \
+  paths.preprocessing_dir=./joint_preprocessing/ \
+  'preprocessing.precomputed_distances=[./ms2_preprocessing/, ./ms3_preprocessing/]'
+```
+
+The cache automatically:
+- Finds all distance files (`edit_distance_*.npy`, `mces_*.npy`) in each directory
+- Loads SMILES mappings from `mapping_unique_smiles.pkl`
+- Matches molecules by SMILES strings (robust to different splits/filters)
+- Logs cache hit/miss statistics during computation
+
+**Cache hit rate = % of molecule pairs that were reused instead of recomputed!**
+
+---
+
 **Quick Testing (Fast Dev Mode):**
 
 ```bash

diff --git a/pyproject.toml b/pyproject.toml
@@ -46,6 +46,7 @@ dependencies = [
     "pyteomics>=4.6.0",
     "depthcharge-ms @ git+https://github.com/wfondrie/depthcharge.git@bd2861f",
     "myopic-mces>=1.0.0,<2.0.0",
+    "highspy>=1.13.1",
     # Data processing
     "h5py>=3.10.0",
     "pyarrow>=15.0.0",

diff --git a/simba/commands/analog_discovery.py b/simba/commands/analog_discovery.py
@@ -191,5 +191,9 @@ def _analog_discovery_with_hydra(
         click.echo("=" * 70)
 
     except Exception as e:
+        import traceback
+
         click.echo(f"\n❌ Error during analog discovery: {e}", err=True)
+        click.echo("\nFull traceback:", err=True)
+        click.echo(traceback.format_exc(), err=True)
         raise click.Abort() from e
diff --git a/simba/configs/model/simba_default.yaml b/simba/configs/model/simba_default.yaml
@@ -33,6 +33,7 @@ features:
   use_element_wise: true
   categorical_adducts: false
   use_only_protonized_adducts: false
+  use_ion_mode: false
 
   # Metadata features
   use_ce: false

diff --git a/simba/configs/preprocessing/default.yaml b/simba/configs/preprocessing/default.yaml
@@ -24,5 +24,13 @@ test_split: 0.1  # Test split fraction (0.0-1.0)
 random_mces_sampling: false
 use_only_protonized_adducts: true
 
+# Precomputed distances - reuse distances from previous preprocessing runs
+# Just list preprocessing directories - auto-discovers all distance files
+precomputed_distances:
+  # Examples:
+  # - "./test_precomputed_cache/dataset1/"
+  # - "./ms2_preprocessing/"
+  # - "./ms3_preprocessing/"
+
 # Subsampling
 subsample_preprocessing: false