Fix container extraction path - use project partition for extracted containers

Idate96 · Idate96 · commit df26414a0623 · 2025-08-05T13:40:57.000+02:00
diff --git a/docs/container-workflow.md b/docs/container-workflow.md
@@ -316,11 +316,12 @@ lquota
 For frequently used containers, consider keeping extracted versions:
 
 ```bash
-# One-time extraction
-tar -xzf container.tar.gz -C /cluster/work/rsl/$USER/containers/extracted/
+# One-time extraction (use project for extracted containers)
+tar -xzf /cluster/work/rsl/$USER/containers/container.tar.gz \
+    -C /cluster/project/rsl/$USER/containers/extracted/
 
 # In job script, just copy
-cp -r /cluster/work/rsl/$USER/containers/extracted/my-app.sif $TMPDIR/
+cp -r /cluster/project/rsl/$USER/containers/extracted/my-app.sif $TMPDIR/
 ```
 
 ### Automated Workflows
diff --git a/fake_train.py b/fake_train.py
@@ -0,0 +1,147 @@
+#!/usr/bin/env python3
+"""Fake training script to test Euler workflows."""
+
+import argparse
+import time
+import os
+import json
+import random
+import numpy as np
+
+def print_gpu_info():
+    """Print GPU information if available."""
+    try:
+        import torch
+        if torch.cuda.is_available():
+            print(f"PyTorch CUDA available: True")
+            print(f"GPU count: {torch.cuda.device_count()}")
+            print(f"GPU name: {torch.cuda.get_device_name(0)}")
+            print(f"GPU memory: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")
+        else:
+            print("No GPU detected, using CPU")
+    except ImportError:
+        print("PyTorch not installed, skipping GPU check")
+
+def simulate_epoch(epoch, total_epochs, batch_size, lr):
+    """Simulate one training epoch."""
+    # Fake metrics that improve over time
+    base_loss = 2.5
+    loss = base_loss * (0.95 ** epoch) + random.uniform(-0.1, 0.1)
+    
+    base_acc = 0.1
+    acc = min(0.95, base_acc + (0.85 * epoch / total_epochs) + random.uniform(-0.05, 0.05))
+    
+    # Simulate training time
+    time.sleep(2)  # Pretend each epoch takes 2 seconds
+    
+    return loss, acc
+
+def save_checkpoint(output_dir, epoch, loss, acc):
+    """Save a fake checkpoint."""
+    checkpoint_dir = os.path.join(output_dir, "checkpoints")
+    os.makedirs(checkpoint_dir, exist_ok=True)
+    
+    checkpoint = {
+        "epoch": epoch,
+        "loss": loss,
+        "accuracy": acc,
+        "model_state": "fake_model_weights_here"
+    }
+    
+    checkpoint_path = os.path.join(checkpoint_dir, f"checkpoint_epoch_{epoch}.json")
+    with open(checkpoint_path, 'w') as f:
+        json.dump(checkpoint, f, indent=2)
+    
+    return checkpoint_path
+
+def main():
+    parser = argparse.ArgumentParser(description='Fake ML Training Script')
+    parser.add_argument('--data-dir', type=str, required=True, help='Data directory')
+    parser.add_argument('--output-dir', type=str, required=True, help='Output directory')
+    parser.add_argument('--epochs', type=int, default=10, help='Number of epochs')
+    parser.add_argument('--batch-size', type=int, default=32, help='Batch size')
+    parser.add_argument('--lr', type=float, default=0.001, help='Learning rate')
+    parser.add_argument('--seed', type=int, default=42, help='Random seed')
+    
+    args = parser.parse_args()
+    
+    # Set random seed
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+    
+    print("="*60)
+    print("FAKE ML TRAINING SCRIPT")
+    print("="*60)
+    print(f"Data directory: {args.data_dir}")
+    print(f"Output directory: {args.output_dir}")
+    print(f"Epochs: {args.epochs}")
+    print(f"Batch size: {args.batch_size}")
+    print(f"Learning rate: {args.lr}")
+    print(f"Random seed: {args.seed}")
+    print("="*60)
+    
+    # Print GPU info
+    print("\nSystem Information:")
+    print_gpu_info()
+    print()
+    
+    # Create output directory
+    os.makedirs(args.output_dir, exist_ok=True)
+    
+    # Simulate data loading
+    print("Loading dataset...")
+    if os.path.exists(args.data_dir):
+        print(f"✓ Found data directory: {args.data_dir}")
+    else:
+        print(f"⚠ Data directory not found, using fake data")
+    time.sleep(1)
+    
+    # Training loop
+    print("\nStarting training...")
+    best_loss = float('inf')
+    
+    for epoch in range(args.epochs):
+        print(f"\nEpoch {epoch+1}/{args.epochs}")
+        print("-" * 40)
+        
+        # Simulate training
+        loss, acc = simulate_epoch(epoch, args.epochs, args.batch_size, args.lr)
+        
+        print(f"Loss: {loss:.4f}")
+        print(f"Accuracy: {acc:.4f}")
+        
+        # Save checkpoint every 5 epochs or if best
+        if (epoch + 1) % 5 == 0 or loss < best_loss:
+            checkpoint_path = save_checkpoint(args.output_dir, epoch + 1, loss, acc)
+            print(f"Saved checkpoint: {checkpoint_path}")
+            
+            if loss < best_loss:
+                best_loss = loss
+                best_checkpoint = os.path.join(args.output_dir, "checkpoints", "best_model.json")
+                with open(best_checkpoint, 'w') as f:
+                    json.dump({"epoch": epoch + 1, "loss": loss, "accuracy": acc}, f)
+                print(f"New best model saved!")
+    
+    # Save final results
+    results = {
+        "final_epoch": args.epochs,
+        "final_loss": loss,
+        "final_accuracy": acc,
+        "best_loss": best_loss,
+        "hyperparameters": vars(args)
+    }
+    
+    results_path = os.path.join(args.output_dir, "training_results.json")
+    with open(results_path, 'w') as f:
+        json.dump(results, f, indent=2)
+    
+    print("\n" + "="*60)
+    print("TRAINING COMPLETED!")
+    print(f"Final Loss: {loss:.4f}")
+    print(f"Final Accuracy: {acc:.4f}")
+    print(f"Best Loss: {best_loss:.4f}")
+    print(f"Results saved to: {results_path}")
+    print("="*60)
+
+if __name__ == "__main__":
+    main()
diff --git a/test_array_job.sh b/test_array_job.sh
@@ -0,0 +1,62 @@
+#!/bin/bash
+#SBATCH --job-name=test-array
+#SBATCH --output=logs/array_%A_%a.out
+#SBATCH --error=logs/array_%A_%a.err
+#SBATCH --time=00:10:00
+#SBATCH --array=1-6
+#SBATCH --ntasks=1
+#SBATCH --cpus-per-task=2
+#SBATCH --mem-per-cpu=1G
+
+module load eth_proxy
+
+echo "Array Job Test"
+echo "=============="
+echo "Array Job ID: $SLURM_ARRAY_JOB_ID"
+echo "Array Task ID: $SLURM_ARRAY_TASK_ID"
+echo "Running on: $(hostname)"
+echo ""
+
+# Define parameter arrays for hyperparameter search
+learning_rates=(0.001 0.01 0.1)
+batch_sizes=(16 32)
+
+# Calculate indices for 2D parameter grid
+# We have 3 LRs x 2 batch sizes = 6 total combinations
+lr_index=$(( ($SLURM_ARRAY_TASK_ID - 1) / ${#batch_sizes[@]} ))
+bs_index=$(( ($SLURM_ARRAY_TASK_ID - 1) % ${#batch_sizes[@]} ))
+
+LR=${learning_rates[$lr_index]}
+BS=${batch_sizes[$bs_index]}
+
+echo "Testing parameters:"
+echo "Learning Rate: $LR"
+echo "Batch Size: $BS"
+echo ""
+
+# Activate environment
+source /cluster/project/rsl/$USER/miniconda3/bin/activate test_env 2>/dev/null || echo "Using base environment"
+
+# Create output directory for this parameter combination
+OUTPUT_DIR=/cluster/project/rsl/$USER/hp_search/lr${LR}_bs${BS}
+mkdir -p $OUTPUT_DIR
+
+# Run fake training with these parameters
+if [ -f /cluster/home/$USER/fake_train.py ]; then
+    python /cluster/home/$USER/fake_train.py \
+        --data-dir /tmp/fake_data \
+        --output-dir $OUTPUT_DIR \
+        --epochs 5 \
+        --batch-size $BS \
+        --lr $LR \
+        --seed $SLURM_ARRAY_TASK_ID
+    
+    echo ""
+    echo "Results saved to: $OUTPUT_DIR"
+else
+    echo "Training script not found, simulating results..."
+    echo "{\"lr\": $LR, \"bs\": $BS, \"final_loss\": $(echo "scale=4; 1.5 - $SLURM_ARRAY_TASK_ID * 0.1" | bc)}" > $OUTPUT_DIR/results.json
+fi
+
+echo ""
+echo "Task $SLURM_ARRAY_TASK_ID completed"
diff --git a/test_container_extraction.sh b/test_container_extraction.sh
@@ -0,0 +1,46 @@
+#!/bin/bash
+#SBATCH --job-name=test-container-extract
+#SBATCH --output=test_container_%j.out
+#SBATCH --error=test_container_%j.err
+#SBATCH --time=00:10:00
+#SBATCH --ntasks=1
+#SBATCH --cpus-per-task=4
+#SBATCH --mem-per-cpu=2G
+#SBATCH --tmp=20G
+
+# Load required modules
+module load eth_proxy
+
+echo "Container Extraction Test"
+echo "========================"
+echo "Job started on $(hostname) at $(date)"
+echo "Job ID: $SLURM_JOB_ID"
+echo "Temp directory: $TMPDIR"
+echo ""
+
+# Check available space
+echo "Available space in $TMPDIR:"
+df -h $TMPDIR
+echo ""
+
+# Test extraction timing
+echo "Extracting container to local scratch..."
+time tar -xf /cluster/work/rsl/$USER/containers/euler-test.tar -C $TMPDIR
+
+echo ""
+echo "Extraction complete. Checking contents:"
+ls -la $TMPDIR/
+echo ""
+
+# Check if it's a singularity image
+if [ -f "$TMPDIR/euler-test.sif" ]; then
+    echo "Found singularity image: euler-test.sif"
+    echo "Image size: $(du -h $TMPDIR/euler-test.sif | cut -f1)"
+    
+    echo ""
+    echo "Testing singularity exec:"
+    singularity exec $TMPDIR/euler-test.sif echo "Hello from container!"
+fi
+
+echo ""
+echo "Job completed at $(date)"
diff --git a/test_full_training_job.sh b/test_full_training_job.sh
@@ -0,0 +1,78 @@
+#!/bin/bash
+#SBATCH --job-name=test-ml-training
+#SBATCH --output=test_training_%j.out
+#SBATCH --error=test_training_%j.err
+#SBATCH --time=00:15:00
+#SBATCH --ntasks=1
+#SBATCH --cpus-per-task=8
+#SBATCH --mem-per-cpu=2G
+#SBATCH --gpus=1
+#SBATCH --tmp=50G
+
+# Load modules
+module load eth_proxy
+
+echo "========================================="
+echo "ML Training Job Test"
+echo "========================================="
+echo "Job ID: $SLURM_JOB_ID"
+echo "Running on: $(hostname)"
+echo "Start time: $(date)"
+echo "GPU allocation: $CUDA_VISIBLE_DEVICES"
+echo "CPUs: $SLURM_CPUS_PER_TASK"
+echo "Temp directory: $TMPDIR"
+echo "========================================="
+
+# Show GPU info
+echo -e "\nGPU Information:"
+nvidia-smi --query-gpu=name,memory.total --format=csv
+
+# Create fake dataset in local scratch
+echo -e "\nPreparing fake dataset..."
+mkdir -p $TMPDIR/fake_dataset/{train,val}
+echo "Dataset created in $TMPDIR/fake_dataset"
+
+# Activate conda environment
+echo -e "\nActivating conda environment..."
+source /cluster/project/rsl/$USER/miniconda3/bin/activate
+conda activate test_env || echo "test_env not found, using base environment"
+
+# Copy training script
+echo -e "\nCopying training script..."
+cp /cluster/home/$USER/fake_train.py $TMPDIR/
+
+# Set up output directory
+OUTPUT_DIR=/cluster/project/rsl/$USER/results/test_$SLURM_JOB_ID
+mkdir -p $OUTPUT_DIR
+
+# Run training
+echo -e "\nStarting training..."
+cd $TMPDIR
+python fake_train.py \
+    --data-dir $TMPDIR/fake_dataset \
+    --output-dir $OUTPUT_DIR \
+    --epochs 10 \
+    --batch-size 64 \
+    --lr 0.001
+
+# Check results
+echo -e "\nTraining completed. Results:"
+if [ -f "$OUTPUT_DIR/training_results.json" ]; then
+    cat $OUTPUT_DIR/training_results.json
+else
+    echo "No results file found"
+fi
+
+echo -e "\nOutput files:"
+ls -la $OUTPUT_DIR/
+
+# Simulate copying important results back
+if [ -d "$OUTPUT_DIR/checkpoints" ]; then
+    echo -e "\nCheckpoints saved:"
+    ls -la $OUTPUT_DIR/checkpoints/
+fi
+
+echo -e "\n========================================="
+echo "Job completed at $(date)"
+echo "Results saved to: $OUTPUT_DIR"
+echo "========================================="