Installation

Setup your conda environments

We need three environments

training with unsloth
evaluation with sklearn

Unsloth conda env

Load the modules

module purge
module load python/3.12.7

Create the conda env

conda create --name unsloth_312 \
    python=3.12 \
    pytorch-cuda=12.1 \
    pytorch cudatoolkit xformers -c pytorch -c nvidia -c xformers \
    -y
conda activate unsloth_312

Check that torch with gpu support was installed if not run this (and check again):

pip install  torch --no-cache-dir --force-reinstall

If this doesn't work install with pip

Install packages (with pip)

conda create --name unsloth_312 python=3.12
conda activate unsloth_312
pip install unsloth
pip install --no-deps trl peft accelerate bitsandbytes
pip install -r requirements_unsloth.txt

vllm conda env

module purge
module load python/3.12.7

conda create --name vllm_312  python=3.12
conda activate vllm_312
pip install vllm

eval conda env

module purge
module load python/3.12.7

conda create --name eval_312  python=3.12
conda activate eval_312
pip install -r requirements_eval.txt

Install vader_lexicon

python -c "import nltk; nltk.download('vader_lexicon'); nltk.download('punkt_tab')"

Setup your cache dir

Add the following line to ./bashrc:

export HF_HOME="<path_to_cache_dir>"

Reload ./bashrc with source ~/.bashrc

Download unsloth models

Install huggingface-cli

conda install -c conda-forge huggingface_hub

Download a model to the hf_cache_dir

cd $HF_HOME
huggingface-cli download unsloth/llama-3-8b-bnb-4bit --local-dir unsloth/llama-3-8b-bnb-4bit --local-dir-use-symlinks True --cache-dir $HF_HOME

Cluster conda env

conda create --name cluster_312 python=3.12
conda activate cluster_312
pip install -r requirements_cluster

Experiment

A minimal example is shown in iterative_train.sh. This script is intended to be launched as job array on a slurm-based cluster: sbatch iterative_train.sh

Tt can also be run locally with: SLURM_ARRAY_TASK_ID=0 bash iterative_train.sh where 0 would define the first job in the array.

To recreate the full experiments see instruction in: regression_analysis_procedure.md

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
regression_analysis		regression_analysis
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
add_qualities.sh		add_qualities.sh
add_qualities_parallel.sh		add_qualities_parallel.sh
add_qualities_to_dataset.py		add_qualities_to_dataset.py
add_qualities_to_dataset_parallel.py		add_qualities_to_dataset_parallel.py
batch_eval.sh		batch_eval.sh
classifier_utils.py		classifier_utils.py
clusters_iterative_train.sh		clusters_iterative_train.sh
correlate_metrics.py		correlate_metrics.py
create_per_cluster_webis_datasets.py		create_per_cluster_webis_datasets.py
create_webis_miniclusters.py		create_webis_miniclusters.py
dataset_utils.py		dataset_utils.py
dbcv_impl.py		dbcv_impl.py
dev_iterative_train.sh		dev_iterative_train.sh
eval_openmeva.py		eval_openmeva.py
eval_utils.py		eval_utils.py
evaluate_generations.py		evaluate_generations.py
evaluate_webis_clusters.py		evaluate_webis_clusters.py
ft_and_gen.py		ft_and_gen.py
generate_collapse_plots.sh		generate_collapse_plots.sh
generate_correlation_plots.sh		generate_correlation_plots.sh
generate_plots.sh		generate_plots.sh
generate_plots_abs.sh		generate_plots_abs.sh
generate_plots_norm.sh		generate_plots_norm.sh
iterative_train.sh		iterative_train.sh
iterative_train_political_homogeneous.sh		iterative_train_political_homogeneous.sh
iterative_train_political_mixed.sh		iterative_train_political_mixed.sh
iterative_train_scale.sh		iterative_train_scale.sh
load_d_and_embed.py		load_d_and_embed.py
load_json_and_embed.py		load_json_and_embed.py
merge_parallel_datasets.py		merge_parallel_datasets.py
model_utils.py		model_utils.py
parse_results.py		parse_results.py
play_with_dataset.py		play_with_dataset.py
plot_datasets.py		plot_datasets.py
plot_len_exp.py		plot_len_exp.py
plot_metric_histogram.py		plot_metric_histogram.py
plot_minicluster_ranges.py		plot_minicluster_ranges.py
plot_scaling_law.py		plot_scaling_law.py
plot_umap_evolution.py		plot_umap_evolution.py
pol_classifier.py		pol_classifier.py
pol_classifier_cleaned.py		pol_classifier_cleaned.py
prepare_100m_tweets_dataset.py		prepare_100m_tweets_dataset.py
prepare_political_dataset.py		prepare_political_dataset.py
prepare_reddit_submissions_dataset.py		prepare_reddit_submissions_dataset.py
prepare_senator_tweets_dataset.py		prepare_senator_tweets_dataset.py
prepare_webis_dataset.py		prepare_webis_dataset.py
presample_human_datasets.py		presample_human_datasets.py
regression_analysis_old.py		regression_analysis_old.py
regression_analysis_procedure.md		regression_analysis_procedure.md
regression_analysis_supression_old.py		regression_analysis_supression_old.py
requirements.txt		requirements.txt
requirements_cluster.txt		requirements_cluster.txt
requirements_eval.txt		requirements_eval.txt
requirements_unsloth.txt		requirements_unsloth.txt
run_eval_webis_clusters.sh		run_eval_webis_clusters.sh
run_miniclusters.sh		run_miniclusters.sh
run_on_node_cpu.sh		run_on_node_cpu.sh
run_on_node_gpu.sh		run_on_node_gpu.sh
run_regression_anayses_old.sh		run_regression_anayses_old.sh
run_vllm_eval.sh		run_vllm_eval.sh
run_vllm_eval_political.sh		run_vllm_eval_political.sh
sample_datasets.py		sample_datasets.py
select_representative_clusters.py		select_representative_clusters.py
test_classifier.ipynb		test_classifier.ipynb
test_classifier.sh		test_classifier.sh
text_clustering.py		text_clustering.py
text_clustering_all.py		text_clustering_all.py
toy_experiment.ipynb		toy_experiment.ipynb
unsloth_merge_and_save.py		unsloth_merge_and_save.py
visualization_utils.py		visualization_utils.py
visualize.py		visualize.py
visualize_datasets.py		visualize_datasets.py
visualize_datasets.sh		visualize_datasets.sh
vllm_server.sh		vllm_server.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Installation

Setup your conda environments

Unsloth conda env

vllm conda env

eval conda env

Setup your cache dir

Download unsloth models

Cluster conda env

Experiment

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

flowersteam/ce_llms

Folders and files

Latest commit

History

Repository files navigation

Installation

Setup your conda environments

Unsloth conda env

vllm conda env

eval conda env

Setup your cache dir

Download unsloth models

Cluster conda env

Experiment

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages