Este projeto é fruto do trabalho de pesquisa da dissertação de mestrado intitulada "Explorando a Generalização de Classificadores de Notícias Falsas em Português Baseados em Modelos de Linguagem", de autoria de Camila Gusmão, com orientação da professora Aline Paes, no Programa de Pós-Graduação em Computação da Universidade Federal Fluminense (UFF).
A maior parte do projeto foi desenvolvida na linguagem Python, com exceção dos experimentos que utilizaram as plataformas CohereAI e MaritalkAI, cujas requisições foram criadas em JavaScript.
O repositório está organizado da seguinte forma:
- /eda: contém a análise dos dados dos datasets selecionados
- /dataset: contempla os dados em suas diferentes versões, sejam os dados originais coletados, trabalhados durante a análise de dados, pré-processados ou modificados para envio de requisições para plataformas fechadas como a CohereAI.
- /models: guarda os modelos treinados (aqui não disponíveis, mas passíveis de serem recriados via código).
- /results: guarda os resultados dos experimentos realizados, desde dados crus até as métricas finais geradas para avaliação.
- /src: contém o cerne do projeto, com todos os códigos desenvolvidos para construção dos experimentos e a configuração adotada por eles (arquivo
config.json). Os códigos estão dispostos em:- /consolidating_results
- /evaluate
- /fine_tuning
- /preprocessing
- /utils
- /zero_shot
- /general_analysis: apresenta as análises gerais dos conjuntos de dados aqui trabalhados.
A criação do ambiente pode ser feita via requirements.txt ou utilizando algum framework de apoio. Neste projeto utilizamos o framework uv.
pip install -r requirements.txt
uv install