GOSAE: Genome Ocean Sparse Autoencoder

This repository contains scripts and tools for training and evaluating a Sparse Autoencoder (SAE) approach to extract genomic features from biological sequence data.

Overview

GOSAE (Genome Ocean Sparse Autoencoder) is designed to:

Extract meaningful features from genomic sequences
Interpret functional significance of these features
Support the GenomeOcean platform for biological data analysis

Data Processing Pipeline

The repository includes scripts for:

Removing duplicate sequences (scripts/remove_duplicates.py)
Selecting representative sequences per species (scripts/select_one_per_species.py)
Splitting data into training and validation sets (scripts/split_train_val.py)

Usage

Data Preparation

Remove duplicates from your FASTA files:

python scripts/remove_duplicates.py input.fasta deduplicated.fasta

Select one sequence per species (optional):

python scripts/select_one_per_species.py deduplicated.fasta representative.fasta

Split into training and validation sets:

python scripts/split_train_val.py deduplicated.fasta train.fasta val.fasta --ratio 0.7

Training

[Training instructions to be added]

Evaluation

[Evaluation instructions to be added]

Requirements

Python 3.6+
BioPython
[Other dependencies]

Citation

If you use this code in your research, please cite: [Citation information to be added]

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
plots		plots
scripts		scripts
test		test
.DS_Store		.DS_Store
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GOSAE: Genome Ocean Sparse Autoencoder

Overview

Data Processing Pipeline

Usage

Data Preparation

Training

Evaluation

Requirements

Citation

About

Uh oh!

Releases

Packages

Languages

lilei1/training_GOSAE

Folders and files

Latest commit

History

Repository files navigation

GOSAE: Genome Ocean Sparse Autoencoder

Overview

Data Processing Pipeline

Usage

Data Preparation

Training

Evaluation

Requirements

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages