Este projeto tem como objetivo aplicar algoritmos tradicionais de aprendizado de máquina para a classificação de artigos científicos, utilizando diferentes versões de conjuntos de dados textuais. Os modelos são treinados com base em títulos de artigos, podendo ou não incluir metadados adicionais, e são avaliados em datasets balanceados e desbalanceados.
-
Entrada textual:
- Apenas títulos dos artigos
- Títulos + metadados (como ano, número de autores e pontuação no título)
-
Balanceamento:
- Dataset balanceado
- Dataset desbalanceado
-
Modelos testados:
- 9 algoritmos tradicionais de aprendizado de máquina
| Modelo | Tipo | Biblioteca |
|---|---|---|
| Regressão Logística | Linear | scikit-learn |
| Linear SVC | Máquinas de Vetores | scikit-learn |
| SGDClassifier | Gradiente Estocástico | scikit-learn |
| MultinomialNB | Naive Bayes | scikit-learn |
| Random Forest | Ensemble | scikit-learn |
| Gradient Boosting | Boosting | scikit-learn |
| XGBoost | Boosting | xgboost |
| LightGBM | Boosting | lightgbm |
| MLPClassifier | Rede Neural (MLP) | scikit-learn |
- Python 3.8+
# Machine Learning
scikit-learn==1.0.2
xgboost==1.5.1
lightgbm==3.3.2
# Manipulação de Dados
pandas==1.3.5
numpy==1.21.6
# Visualização
matplotlib==3.5.1
seaborn==0.11.2
# Ambiente de Desenvolvimento
jupyter==1.0.0
spacy==3.2.1
nltk==3.6.3