Классификация отзывов по категориям отзыва (область качества ВУЗа который он оценивает).
Задача проекта состояла в анализе мнений и настроений людей о ВУЗах России в виде отзывов с различных платформ (Отзовик и подобные).
Такая работа проводится несколько лет, в связи с этим накопились данные, благодаря которым можно обучить модели фильтрации фильтрации нерелевантных отзывов, а затем отзывы, имеющие реальное мнение разделить на тематические категории для дальнейшего анализа специалистами социологами.
Данные представлены двумя таблицами (train_data, test_data), которые являются тренировочной и тестовой выборкой соответственно. В таблице два столбца (review_snippet, category), где review_snippet - это часть отзыва, отражающая суть, была получена специалистами при предварительной обработке текста в PolyAnalyst с целью упрощения вычислений; category - это одна из 6 категорий - 'Лояльность к ВУЗу', 'Образовательная деятельность + НИР', 'Финансово-экономическая деятельность', 'Административная деятельность', 'Внеучебная деятельность', 'Инфраструктура'.
Стандартный и эффективный подход при решении таких задач - это использование Предобученных нейросетей. Например из Hugging Face. Хорошим решением будет применить модели на основе Bert, например cointegrated/rubert-tiny2, она довольно популярна на Hugging Face. В ходе работы был сделан fine-tuning модели, модель обучилась достаточно быстро и был получен F1 = 0.81, при высоких значениях других метрик (тз состояло именно в получении максимального F1 макроусредненного).
Предобученная модель типа BERT - cointegrated/rubert-tiny2 оказалась достаточно эффективной для базовой модели. Предобученная модель на ее основе показала хорошее качество, а также быстро обучалась и была достаточно легкой (около 112 мб). Полученный результат - это быстрое и простое решение нашей задачи.