ML-BIO

A ML-BIO é uma ferramenta que utiliza técnicas de aprendizado de máquina para otimizar o desempenho de aplicações no BioinfoPortal. Este portal é uma iniciativa colaborativa entre LABINFO, CENAPAD-RJ e SINAPAD, que facilita o acesso a recursos de computação de alto desempenho disponíveis no supercomputador Santos Dumont (SDumont).

Objetivo da Ferramenta

A ML-Bio é especialmente projetada para determinar a configuração idela de parâmetros para aplicações hospedadas no BioinfoPortal. Utilizando a aplicação RAxML como caso de estudo, esta ferramenta busca ajustar as configurações de forma personalizada, visando melhorar o desempenho e a eficiência do BioinfoPortal e do SDumont.

Pré-requisitos

Python 3.8.10
Bibliotecas: pandas, numpy e scikit-learn.

pip install pandas numpy scikit-learn

Base de dados (disponível no diretório base-de-dados desse repositório)

Modelo Preditivo

A ferramenta emprega um modelo de regressão supervisionado, implementado pelo algoritmo Extra Trees Regressor. Este modelo é treinado com dados históricos de execuções anteriores, permitindo a ML-BIO prever a quantidade ideal de nós necessários para cada execução.

Componentes da ML-BIO

A ML-BIO consiste em duas etapas, ambos desenvolvidos em Python:

Módulo de Treinamento (treinamento.py):
- Realiza o pré-processamento dos dados.
- Executa o treinamento do modelo ExtraTreesRegressor.
- Salva o modelo treinado para uso futuro.
- Para iniciar o treinamento, execute no terminal:
```
python3 treinamento.py
```

Esse módulo pode ser executado apenas uma vez, sem necessidade de retreinamento. Caso já possua o modelo treinado não há nessecidade do uso desse módulo.

Módulo Preditor (preditor.py):
- Realiza previsões da quantidade de nós ideal.
- Atualiza o script RAxML_v_008_002_012_pre.script com os valores preditos.
- Prepara o script para submissão ao metaescalonador do BioinfoPortal.
- Para executar a previsão, use o comando:
```
python3 preditor.py
```

Estrutura de Diretórios e Arquivos

base-de-dados/: Contém amostras de arquivos de saída e de entrada usados pela ferramenta.
resultados_aminoacido.csv: Exemplo de base de dados utilizada para treinar o modelo.
modelo_treinamento_resultados_aminoacido.csv.pickle: O modelo treinado, pronto para uso nas previsões.

Cite

Se você considerar a Ferramenta ML-BIO ou a base de dados úteis para sua pesquisa, recomendamos citar os seguintes artigos em seus trabalhos:

@inproceedings{wscad,
 author = {Micaella Coelho and Guilherme Freire and Kary Ocaña and Carla Osthoff and Marcelo Galheigo and André Carneiro and Francieli Boito and Philippe Navaux and Douglas Cardoso},
 title = {Desenvolvimento de um Framework de Aprendizado de Máquina no Apoio a Gateways Científicos Verdes, Inteligentes e Eficientes: BioinfoPortal como Caso de Estudo Brasileiro},
 booktitle = {Anais do XXIII Simpósio em Sistemas Computacionais de Alto Desempenho},
 location = {Florianópolis},
 year = {2022},
 pages = {205--216},
 publisher = {SBC},
 address = {Porto Alegre, RS, Brasil},
 doi = {10.5753/wscad.2022.226377},
 url = {https://sol.sbc.org.br/index.php/wscad/article/view/21945}
}

@inproceedings{coelho2022development,
  title={Development of a Machine Learning Framework to Support Efficient Scientific Gateways},
  author={Coelho, M. and Freire, G. and Ocaña, K. and Osthoff, C. and Galheigo, M. and Carneiro, A.R. and Boito, F. and Navaux, P. and Cardoso, D.O.},
  booktitle={Conferência Latino-Americana de Computação de Alto Desempenho (BioCARLA)},
  address={Porto Alegre, Brasil},
  year={2022}
}

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
base-de-dados		base-de-dados
README.md		README.md
preditor.py		preditor.py
treinamento.py		treinamento.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ML-BIO

Objetivo da Ferramenta

Pré-requisitos

Modelo Preditivo

Componentes da ML-BIO

Estrutura de Diretórios e Arquivos

Cite

About

Uh oh!

Releases

Packages

Languages

Micaella/ML-BIO

Folders and files

Latest commit

History

Repository files navigation

ML-BIO

Objetivo da Ferramenta

Pré-requisitos

Modelo Preditivo

Componentes da ML-BIO

Estrutura de Diretórios e Arquivos

Cite

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages