Skip to content

sevlakoz/Data-Science-Yandex

Repository files navigation

Проекты из курса Специалист по Data Science от Яндекс Практикума

Сборный проект 1 - исследовательский анализ данных и проверка гипотез

Поиск закономерностей, определяющих успешность компьютерной игры.

Ход работы:

  • Предобработка данных
  • Исследовательский анализ
  • Составление "портрета" пользователя каждого региона
  • Проверка гипотез

При сопоставлении продаж с оценками критиков и пользователей было установлено, что оценки критиков положительно влияют на продажи, а оценки пользователей практически нет. При анализе популярности разных жанров на глобальном рынке было установлено, что наиболее востребованы игры жанров Shooter, Sports и Platform. При анализе крупнейших рынков - Северная Америка, Европа и Япония - было установлено, что в Северной Америке и Европе популярны тенденции практически одинаковые, а в Японии существо отличаются.

Результаты проверки гипотез:

  • Средние пользовательские рейтинги платформ Xbox One и PC одинаковые - принимаем
  • Средние пользовательские рейтинги жанров Action и Sports одинаковые - отвергаем

Линейные модели в машинном обучении

Предсказание удоя и хорошего вкуса молока у коров с помощью линейной и логистической регрессии, соответственно.

Ход работы:

  • Предобработка данных
  • Исследовательский анализ и корреляционный данных
  • Обучение моделей

В результате была получена модель регрессии для удоя с RMSE 188 л для величин целевой переменной в диапазоне 5000 - 7000 л и модель классификации для вкуса с метриками Accuracy, Precision и Recall равными 0.62, 0.82 и 0.41, соответственно.

Обучение с учителем: качество модели

Предсказание снижения активности покупателей интернет-магазина с использованием SHAP для анализа важности признаков.

Ход работы:

  • Предобработка данных
  • Исследовательский анализ данных и корреляционный анализ
  • Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
  • Анализ важности признаков

В результате была найдена модель, которая обеспечивает наилучшее значение ROC-AUC - 0.92 на обучающей и 0.91 на тестовой. Эти результаты показала модель опорных векторов (SVC) с ядром RBF и с OneHotEncoder и StandardScaler для категориальных и численных признаков, соотвественно. Было установлено, что наиболее сильное влияние на отнесение к классу 1 показали два признака: "акционные_покупки" (в больше мере) и "неоплаченные_продукты_штук_квартал" (в меньшей).

Сборный проект 2 - HR-аналитика

Предсказание уровня удовлетворённости сотрудника из компании (задача регрессии) и выявление склонных к увольнению сотрудников (задача классификации).

Ход работы:

  • Предобработка данных
  • Исследовательский анализ и корреляционный данных
  • Составление "портрета" увольняющегося сотрудника
  • Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV для задач регрессии и классификации
  • Анализ важности признаков

В результате для обеих задач удалось получить модели, работающию адекватно как на обучающей, так и на тестовой выборках: SMAPE 15.8/14.9 в задаче регресии и ROC-AUC 0.928/0.923 в задаче классификации. Опираясь на составленный "портрет" увольняющегося, можно порекомендовать компании обратить внимание на низконагруженных сотрудников, работающих 1-3 года и имеющих невысокие оценки руководителя. Оценка важности признаков силами SHAP показала, что сильнее всего влияют на вероятность увольнения зарплата и оценка руководителя для отнесения к классу 1 и срок работы и нагрузка для отнесения к классу 0.

Машинное обучение в бизнесе

Предсказание количества нефти в скважинах в трёх регионах и оценка рисков и прибыли для каждого региона методом Booststrap.

Ход работы:

  • Предобработка данных
  • Исследовательский анализ и корреляционный данных
  • Обучение модели линейной регрессии (наиболее предсказуемая модель, требование заказчика)
  • Расчёт прибыли и рисков

В результате исследования был определён лучший регион для разработки с самыми высокими значениями среднего количества нефти и квантиля 2.5% для минимизации рисков.

Численные методы

Определение рыночной стоимости автомобиля с использованием нелинейных моделей - дерева решений и градиентного бустинга.

Ход работы:

  • Предобработка данных
  • Исследовательский анализ и корреляционный данных
  • Обучение моделей
  • Анализ моделей: качества предсказаний, скорости обучения и предсказания

Установлено, что модель градиентного бустинга обучается значительно дольше, дерево решений, но даёт значительно лучшее качество. По времени предсказания модели оказываются идентичны.

Временные ряды

Анализ рядов, создание признаков и прогнозирование количества заказов такси в разные дни недели и время суток.

Ход работы:

  • Ресемплирование и анализ данных
  • Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
  • Сравнение результатов предсказания лучшей модели с тестовой выборкой

В результате было установлено, что лучше всего работает модель градиентного бустинга, но сравнимые показатели даёт и линейная регрессия с L2-регуляризацией (Ridge). Анализ остатков выявил, что на отрезке в 1 час модель работает практически всегда корректно, но есть отдельные выбросы/расхождения. На более длинных отрезках они сглаживаются.

Машинное обучение для текстов

Предсказание токсичности комментарии к товарам для интернет магазина с использованием классических моделей машинного обучения и нейросетей.

Ход работы:

  • Предобработка данных
  • Кодирование текстов комментариев с помощью TF-IDF, word2vec и предобученной BERT
  • Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV для каждого из полученного набора закодированных текстов

Было установлено, что при кодировании с помощью BERT даже простые модели дают значение F1 выше 0.9, в то время как для вариантов TF-IDF и word2vec значение метрики лучших моделей не превышает 0.5.

Компьютерное зрение

Предсказание возраста покупателей по фотографии с использованием свёрточных нейросетей.

Ход работы:

  • Исследовательский анализ данных
  • Обучение модели ResNet50, у которой выход был заменён на один нейрон с выпрямленной линейной активацией для получения целевой величины возраста

В результате на обучающей выборке величина метрики MAE составила 2.2 года, а на тестовой - 6.6, то есть модель немного переобучилась.

Выпускной проект - телекоммуникации

Предсказание разрыва абонентом договора с телеком провайдером с использованием линейных и более сложных моделей.

Ход работы:

  • Предобработка данных
  • Генерация дополнительных признаков
  • Исследовательский анализ данных и корреляционный анализ
  • Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
  • Тестирование лучшей модели
  • Анализ важности признаков

Было установлено, что наилучшие результаты показывает CatBoostClassifier с максимальной глубиной 6. Метрика ROC-AUC на тестовой выборке состаляет 0.913 и даже превышает значения, полученные на обучающей - 0.876.

Выявлено, что чаще уходят клиенты, которые:

  • оплачивают услуги раз в год / два года
  • больше платят в месяц
  • пользуются услугами multiple_lines, online_backup и online_security

Также можно отметить, что видна сложная связь между целевой и contract_duration - сильно маленькие и сильно большие величины толкают ответ в класс 1

Releases

No releases published

Packages

 
 
 

Contributors