Skip to content

Linux CLI pipeline for MTBC complex genomic data analysis.

License

Notifications You must be signed in to change notification settings

falatfernando/mtbc_tree

Repository files navigation

Pipeline completa de bioinformática para Mycobaterium spp.

Esse repositório armazena toda a arquitetura necessária para replicação do exercício de Biologia Molecular Computacional da Universidade de São Paulo.

O exercício em questão é a replicação das análises do artigo "Step-by-Step Bacterial Genome Comparison" de Dennis Carhuaricra-Hauman e João Carlos Setubal publicado na revista Nature em 2024.

Repositório e entrega desenvolvidos por Fernando Falat Rangel em 2025 em Ubuntu 22.04 LTS.

CLI

Uso e Instação

O repositório foi construído de uma forma onde todos os comandos devem ser executados no root. Para instalar as ferramentas necessárias um arquivo para cada ambiente virtual necessário encontra-se na pasta venvs (venv_*.yml).

Clonando o Repositório

Para obter o repositório, basta clonar utilizando o comando:

git clone https://github.com/falatfernando/mtbc_tree.git

Instalando dependencias e virutal envs

Antes de iniciar qualquer etapa do pipeline, as dependências dos softwares utilizados devem ser instaladas e os bash scripts terem a permissão de serem executados. Para isso, primeiro, dentro do root do repositório, execute o comando:

chmod +x *.sh

Isso dará a permissão a todos os arquivos .sh serem executados no seu ambiente Linux.

Em seguida, tenha certeza que possuí alguma versão do conda instalada e crie os ambientes virtuais utilizando a Command Line Interface (CLI):

  1. Utilizando a CLI e selecionando a opção 1 para instalação automática:
bash mtbc_tree_cli.sh
  1. Rodando manualmente a instalação de cada venv na pasta venv:
conda env create -f venv_*.yml

Esse comando criará em seu ambiente linux, dentro da instalção local do conda, as libs necessárias para rodar cada etapa do pipeline.

Rodando análises

Para executar a pipeline e obter os arquivos necessários também há a opção automatizada na CLI com a opção 2.

bash mtbc_tree_cli.sh

Se preferir, também se pode executar cada etapa manualente seguindo a ordem lógica:

  1. ativar o ambiente conda
  2. executar o arquivo .sh respectivo
  3. desativar o ambiente conda
  4. repetir

De acordo com a metodologia de Setubal e Carhuaricra-Huaman a ordem das análises é:

  1. Prokka
  2. Panaroo
  3. Philogeny
  4. Ppanggolin
  5. Análise de genes de resistência
  6. Análise de Virulência

Perceba que a análise de genes de resistência foi completamente alterada para refletir a realidade que temos hoje com TB. O pipeline utiliza o ART Illuimina para simular reads e as utiliza como input para o Mykrobe prever a resistência. Nota: hoje existem pipelines mais robustos e completos, como o BrSeqTB, que fazem a predição de resistência a mais drogas e com um catálogo de referência da World Health Organization atualizado. Vale a pena checar se o seu objetivo for esse!

A finalidade do pipeline foi apenas automatizar a geração de dados para interpretação biológica e criação de imagens. Todas as imagens existentes do artigo possuem um script em R disponível correspondente que não estão contidos nesta pipeline.


Fernando.

About

Linux CLI pipeline for MTBC complex genomic data analysis.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published