Фильтрация комментариев

Фильтрация нежелательных комментариев, таких как спам и оскорбления, для создания более качественного анализа мнений людей о ВУЗах.

Мотивация

Задача проекта состояла в анализе мнений и настроений людей о ВУЗах России в виде отзывов с различных платформ (Отзовик и подобные).

Такая работа проводится несколько лет, в связи с этим накопились данные, благодаря которым можно обучить модели фильтрации нерелевантных отзывов (т.е. не имеющие мнения, являющиеся просто спамом, рекламой, флудом и др.) для того, чтобы качественнее оценить настоящие мнения людей.

Описание датасета

Датасет - это размеченные отзывы людей о ВУЗах, на основе релевантности мнения, то есть наличия реального мнения о каком-либо ВУЗе, остутствие спама, рекламы и других ненесущих мнение отзывов. Поля датасета (text, relevant). text - это текст отзыва, relevant - это 1 или 0, где 1 - это релевантный отзыв.

Классические методы

Поскольку задача сводится к простой задачае классификации, попробуем применить классические методы классификации текстов (файл classic_methods.ipynb). Лучшее качество которого удалось добиться - это F1 = 0.842.

Кастомные нейросети

Использовались кастомные простые нейросети (файл nn_methods.ipynb). В итоге лучше всего себя показали простые нейросети. Лучшее качество модели, которого удалось добиться - это F1 = 0.836, при этом модель обучалась значительно быстрее чем классические.

Предобученные нейросети

Стандартный и эффективный подход при решении таких задач - это использование Предобученных нейросетей. Например из Hugging Face. Хорошим решением будет применить модели на основе Bert, например cointegrated/rubert-tiny2, она довольно популярна на Hugging Face. В ходе работы был сделан fine-tuning модели, модель обучилась достаточно быстро и был получен F1 = 0.859. Это оказалось лучшим результатом среди всех моделей, что неудивительно. Это неплохая модель для быстрого решения нашей задачи.

Результат

Лучшей моделью оказалась модель зафайтюненая на основе cointegrated/rubert-tiny2. Recall у такой модели выше precision, что отлично подходит для нашей задачи фильтрации релевантных текстов, которые в дальнейшем также будут обработаны и изучены.

Полученный результат - это быстрое решение нашей задачи.

Автор

Андрей Заводов (SleekVortex)

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
data		data
.gitignore		.gitignore
README.md		README.md
classic_methods.ipynb		classic_methods.ipynb
nn_methods.ipynb		nn_methods.ipynb
pretrained_models.ipynb		pretrained_models.ipynb
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Фильтрация комментариев

Мотивация

Описание датасета

Классические методы

Кастомные нейросети

Предобученные нейросети

Результат

Автор

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Фильтрация комментариев

Мотивация

Описание датасета

Классические методы

Кастомные нейросети

Предобученные нейросети

Результат

Автор

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages