Esse repositório armazena toda a arquitetura necessária para replicação do exercício de Biologia Molecular Computacional da Universidade de São Paulo.
O exercício em questão é a replicação das análises do artigo "Step-by-Step Bacterial Genome Comparison" de Dennis Carhuaricra-Hauman e João Carlos Setubal publicado na revista Nature em 2024.
Repositório e entrega desenvolvidos por Fernando Falat Rangel em 2025 em Ubuntu 22.04 LTS.
O repositório foi construído de uma forma onde todos os comandos devem ser executados no root. Para instalar as ferramentas necessárias um arquivo para cada ambiente virtual necessário encontra-se na pasta venvs (venv_*.yml).
Para obter o repositório, basta clonar utilizando o comando:
git clone https://github.com/falatfernando/mtbc_tree.git
Antes de iniciar qualquer etapa do pipeline, as dependências dos softwares utilizados devem ser instaladas e os bash scripts terem a permissão de serem executados. Para isso, primeiro, dentro do root do repositório, execute o comando:
chmod +x *.sh
Isso dará a permissão a todos os arquivos .sh serem executados no seu ambiente Linux.
Em seguida, tenha certeza que possuí alguma versão do conda instalada e crie os ambientes virtuais utilizando a Command Line Interface (CLI):
- Utilizando a CLI e selecionando a opção 1 para instalação automática:
bash mtbc_tree_cli.sh
- Rodando manualmente a instalação de cada venv na pasta venv:
conda env create -f venv_*.yml
Esse comando criará em seu ambiente linux, dentro da instalção local do conda, as libs necessárias para rodar cada etapa do pipeline.
Para executar a pipeline e obter os arquivos necessários também há a opção automatizada na CLI com a opção 2.
bash mtbc_tree_cli.sh
Se preferir, também se pode executar cada etapa manualente seguindo a ordem lógica:
- ativar o ambiente conda
- executar o arquivo .sh respectivo
- desativar o ambiente conda
- repetir
De acordo com a metodologia de Setubal e Carhuaricra-Huaman a ordem das análises é:
- Prokka
- Panaroo
- Philogeny
- Ppanggolin
- Análise de genes de resistência
- Análise de Virulência
Perceba que a análise de genes de resistência foi completamente alterada para refletir a realidade que temos hoje com TB. O pipeline utiliza o ART Illuimina para simular reads e as utiliza como input para o Mykrobe prever a resistência. Nota: hoje existem pipelines mais robustos e completos, como o BrSeqTB, que fazem a predição de resistência a mais drogas e com um catálogo de referência da World Health Organization atualizado. Vale a pena checar se o seu objetivo for esse!
A finalidade do pipeline foi apenas automatizar a geração de dados para interpretação biológica e criação de imagens. Todas as imagens existentes do artigo possuem um script em R disponível correspondente que não estão contidos nesta pipeline.
Fernando.
