Поиск закономерностей, определяющих успешность компьютерной игры.
Ход работы:
- Предобработка данных
- Исследовательский анализ
- Составление "портрета" пользователя каждого региона
- Проверка гипотез
При сопоставлении продаж с оценками критиков и пользователей было установлено, что оценки критиков положительно влияют на продажи, а оценки пользователей практически нет. При анализе популярности разных жанров на глобальном рынке было установлено, что наиболее востребованы игры жанров Shooter, Sports и Platform. При анализе крупнейших рынков - Северная Америка, Европа и Япония - было установлено, что в Северной Америке и Европе популярны тенденции практически одинаковые, а в Японии существо отличаются.
Результаты проверки гипотез:
- Средние пользовательские рейтинги платформ Xbox One и PC одинаковые - принимаем
- Средние пользовательские рейтинги жанров Action и Sports одинаковые - отвергаем
Предсказание удоя и хорошего вкуса молока у коров с помощью линейной и логистической регрессии, соответственно.
Ход работы:
- Предобработка данных
- Исследовательский анализ и корреляционный данных
- Обучение моделей
В результате была получена модель регрессии для удоя с RMSE 188 л для величин целевой переменной в диапазоне 5000 - 7000 л и модель классификации для вкуса с метриками Accuracy, Precision и Recall равными 0.62, 0.82 и 0.41, соответственно.
Предсказание снижения активности покупателей интернет-магазина с использованием SHAP для анализа важности признаков.
Ход работы:
- Предобработка данных
- Исследовательский анализ данных и корреляционный анализ
- Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
- Анализ важности признаков
В результате была найдена модель, которая обеспечивает наилучшее значение ROC-AUC - 0.92 на обучающей и 0.91 на тестовой. Эти результаты показала модель опорных векторов (SVC) с ядром RBF и с OneHotEncoder и StandardScaler для категориальных и численных признаков, соотвественно. Было установлено, что наиболее сильное влияние на отнесение к классу 1 показали два признака: "акционные_покупки" (в больше мере) и "неоплаченные_продукты_штук_квартал" (в меньшей).
Предсказание уровня удовлетворённости сотрудника из компании (задача регрессии) и выявление склонных к увольнению сотрудников (задача классификации).
Ход работы:
- Предобработка данных
- Исследовательский анализ и корреляционный данных
- Составление "портрета" увольняющегося сотрудника
- Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV для задач регрессии и классификации
- Анализ важности признаков
В результате для обеих задач удалось получить модели, работающию адекватно как на обучающей, так и на тестовой выборках: SMAPE 15.8/14.9 в задаче регресии и ROC-AUC 0.928/0.923 в задаче классификации. Опираясь на составленный "портрет" увольняющегося, можно порекомендовать компании обратить внимание на низконагруженных сотрудников, работающих 1-3 года и имеющих невысокие оценки руководителя. Оценка важности признаков силами SHAP показала, что сильнее всего влияют на вероятность увольнения зарплата и оценка руководителя для отнесения к классу 1 и срок работы и нагрузка для отнесения к классу 0.
Предсказание количества нефти в скважинах в трёх регионах и оценка рисков и прибыли для каждого региона методом Booststrap.
Ход работы:
- Предобработка данных
- Исследовательский анализ и корреляционный данных
- Обучение модели линейной регрессии (наиболее предсказуемая модель, требование заказчика)
- Расчёт прибыли и рисков
В результате исследования был определён лучший регион для разработки с самыми высокими значениями среднего количества нефти и квантиля 2.5% для минимизации рисков.
Определение рыночной стоимости автомобиля с использованием нелинейных моделей - дерева решений и градиентного бустинга.
Ход работы:
- Предобработка данных
- Исследовательский анализ и корреляционный данных
- Обучение моделей
- Анализ моделей: качества предсказаний, скорости обучения и предсказания
Установлено, что модель градиентного бустинга обучается значительно дольше, дерево решений, но даёт значительно лучшее качество. По времени предсказания модели оказываются идентичны.
Анализ рядов, создание признаков и прогнозирование количества заказов такси в разные дни недели и время суток.
Ход работы:
- Ресемплирование и анализ данных
- Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
- Сравнение результатов предсказания лучшей модели с тестовой выборкой
В результате было установлено, что лучше всего работает модель градиентного бустинга, но сравнимые показатели даёт и линейная регрессия с L2-регуляризацией (Ridge). Анализ остатков выявил, что на отрезке в 1 час модель работает практически всегда корректно, но есть отдельные выбросы/расхождения. На более длинных отрезках они сглаживаются.
Предсказание токсичности комментарии к товарам для интернет магазина с использованием классических моделей машинного обучения и нейросетей.
Ход работы:
- Предобработка данных
- Кодирование текстов комментариев с помощью TF-IDF, word2vec и предобученной BERT
- Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV для каждого из полученного набора закодированных текстов
Было установлено, что при кодировании с помощью BERT даже простые модели дают значение F1 выше 0.9, в то время как для вариантов TF-IDF и word2vec значение метрики лучших моделей не превышает 0.5.
Предсказание возраста покупателей по фотографии с использованием свёрточных нейросетей.
Ход работы:
- Исследовательский анализ данных
- Обучение модели ResNet50, у которой выход был заменён на один нейрон с выпрямленной линейной активацией для получения целевой величины возраста
В результате на обучающей выборке величина метрики MAE составила 2.2 года, а на тестовой - 6.6, то есть модель немного переобучилась.
Предсказание разрыва абонентом договора с телеком провайдером с использованием линейных и более сложных моделей.
Ход работы:
- Предобработка данных
- Генерация дополнительных признаков
- Исследовательский анализ данных и корреляционный анализ
- Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
- Тестирование лучшей модели
- Анализ важности признаков
Было установлено, что наилучшие результаты показывает CatBoostClassifier с максимальной глубиной 6. Метрика ROC-AUC на тестовой выборке состаляет 0.913 и даже превышает значения, полученные на обучающей - 0.876.
Выявлено, что чаще уходят клиенты, которые:
- оплачивают услуги раз в год / два года
- больше платят в месяц
- пользуются услугами multiple_lines, online_backup и online_security
Также можно отметить, что видна сложная связь между целевой и contract_duration - сильно маленькие и сильно большие величины толкают ответ в класс 1