Skip to content

SleekVortex/multiclass-feedback-classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Многоклассовая классификация отзывов по категориям

Классификация отзывов по категориям отзыва (область качества ВУЗа который он оценивает).

Мотивация

Задача проекта состояла в анализе мнений и настроений людей о ВУЗах России в виде отзывов с различных платформ (Отзовик и подобные).

Такая работа проводится несколько лет, в связи с этим накопились данные, благодаря которым можно обучить модели фильтрации фильтрации нерелевантных отзывов, а затем отзывы, имеющие реальное мнение разделить на тематические категории для дальнейшего анализа специалистами социологами.

Описание данных

Данные представлены двумя таблицами (train_data, test_data), которые являются тренировочной и тестовой выборкой соответственно. В таблице два столбца (review_snippet, category), где review_snippet - это часть отзыва, отражающая суть, была получена специалистами при предварительной обработке текста в PolyAnalyst с целью упрощения вычислений; category - это одна из 6 категорий - 'Лояльность к ВУЗу', 'Образовательная деятельность + НИР', 'Финансово-экономическая деятельность', 'Административная деятельность', 'Внеучебная деятельность', 'Инфраструктура'.

Модель

Стандартный и эффективный подход при решении таких задач - это использование Предобученных нейросетей. Например из Hugging Face. Хорошим решением будет применить модели на основе Bert, например cointegrated/rubert-tiny2, она довольно популярна на Hugging Face. В ходе работы был сделан fine-tuning модели, модель обучилась достаточно быстро и был получен F1 = 0.81, при высоких значениях других метрик (тз состояло именно в получении максимального F1 макроусредненного).

Результат

Предобученная модель типа BERT - cointegrated/rubert-tiny2 оказалась достаточно эффективной для базовой модели. Предобученная модель на ее основе показала хорошее качество, а также быстро обучалась и была достаточно легкой (около 112 мб). Полученный результат - это быстрое и простое решение нашей задачи.

Автор

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors