Проекты из курса Специалист по Data Science от Яндекс Практикума

Сборный проект 1 - исследовательский анализ данных и проверка гипотез

Поиск закономерностей, определяющих успешность компьютерной игры.

Ход работы:

Предобработка данных
Исследовательский анализ
Составление "портрета" пользователя каждого региона
Проверка гипотез

При сопоставлении продаж с оценками критиков и пользователей было установлено, что оценки критиков положительно влияют на продажи, а оценки пользователей практически нет. При анализе популярности разных жанров на глобальном рынке было установлено, что наиболее востребованы игры жанров Shooter, Sports и Platform. При анализе крупнейших рынков - Северная Америка, Европа и Япония - было установлено, что в Северной Америке и Европе популярны тенденции практически одинаковые, а в Японии существо отличаются.

Результаты проверки гипотез:

Средние пользовательские рейтинги платформ Xbox One и PC одинаковые - принимаем
Средние пользовательские рейтинги жанров Action и Sports одинаковые - отвергаем

Линейные модели в машинном обучении

Предсказание удоя и хорошего вкуса молока у коров с помощью линейной и логистической регрессии, соответственно.

Ход работы:

Предобработка данных
Исследовательский анализ и корреляционный данных
Обучение моделей

В результате была получена модель регрессии для удоя с RMSE 188 л для величин целевой переменной в диапазоне 5000 - 7000 л и модель классификации для вкуса с метриками Accuracy, Precision и Recall равными 0.62, 0.82 и 0.41, соответственно.

Обучение с учителем: качество модели

Предсказание снижения активности покупателей интернет-магазина с использованием SHAP для анализа важности признаков.

Ход работы:

Предобработка данных
Исследовательский анализ данных и корреляционный анализ
Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
Анализ важности признаков

В результате была найдена модель, которая обеспечивает наилучшее значение ROC-AUC - 0.92 на обучающей и 0.91 на тестовой. Эти результаты показала модель опорных векторов (SVC) с ядром RBF и с OneHotEncoder и StandardScaler для категориальных и численных признаков, соотвественно. Было установлено, что наиболее сильное влияние на отнесение к классу 1 показали два признака: "акционные_покупки" (в больше мере) и "неоплаченные_продукты_штук_квартал" (в меньшей).

Сборный проект 2 - HR-аналитика

Предсказание уровня удовлетворённости сотрудника из компании (задача регрессии) и выявление склонных к увольнению сотрудников (задача классификации).

Ход работы:

Предобработка данных
Исследовательский анализ и корреляционный данных
Составление "портрета" увольняющегося сотрудника
Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV для задач регрессии и классификации
Анализ важности признаков

В результате для обеих задач удалось получить модели, работающию адекватно как на обучающей, так и на тестовой выборках: SMAPE 15.8/14.9 в задаче регресии и ROC-AUC 0.928/0.923 в задаче классификации. Опираясь на составленный "портрет" увольняющегося, можно порекомендовать компании обратить внимание на низконагруженных сотрудников, работающих 1-3 года и имеющих невысокие оценки руководителя. Оценка важности признаков силами SHAP показала, что сильнее всего влияют на вероятность увольнения зарплата и оценка руководителя для отнесения к классу 1 и срок работы и нагрузка для отнесения к классу 0.

Машинное обучение в бизнесе

Предсказание количества нефти в скважинах в трёх регионах и оценка рисков и прибыли для каждого региона методом Booststrap.

Ход работы:

Предобработка данных
Исследовательский анализ и корреляционный данных
Обучение модели линейной регрессии (наиболее предсказуемая модель, требование заказчика)
Расчёт прибыли и рисков

В результате исследования был определён лучший регион для разработки с самыми высокими значениями среднего количества нефти и квантиля 2.5% для минимизации рисков.

Численные методы

Определение рыночной стоимости автомобиля с использованием нелинейных моделей - дерева решений и градиентного бустинга.

Ход работы:

Предобработка данных
Исследовательский анализ и корреляционный данных
Обучение моделей
Анализ моделей: качества предсказаний, скорости обучения и предсказания

Установлено, что модель градиентного бустинга обучается значительно дольше, дерево решений, но даёт значительно лучшее качество. По времени предсказания модели оказываются идентичны.

Временные ряды

Анализ рядов, создание признаков и прогнозирование количества заказов такси в разные дни недели и время суток.

Ход работы:

Ресемплирование и анализ данных
Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
Сравнение результатов предсказания лучшей модели с тестовой выборкой

В результате было установлено, что лучше всего работает модель градиентного бустинга, но сравнимые показатели даёт и линейная регрессия с L2-регуляризацией (Ridge). Анализ остатков выявил, что на отрезке в 1 час модель работает практически всегда корректно, но есть отдельные выбросы/расхождения. На более длинных отрезках они сглаживаются.

Машинное обучение для текстов

Предсказание токсичности комментарии к товарам для интернет магазина с использованием классических моделей машинного обучения и нейросетей.

Ход работы:

Предобработка данных
Кодирование текстов комментариев с помощью TF-IDF, word2vec и предобученной BERT
Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV для каждого из полученного набора закодированных текстов

Было установлено, что при кодировании с помощью BERT даже простые модели дают значение F1 выше 0.9, в то время как для вариантов TF-IDF и word2vec значение метрики лучших моделей не превышает 0.5.

Компьютерное зрение

Предсказание возраста покупателей по фотографии с использованием свёрточных нейросетей.

Ход работы:

Исследовательский анализ данных
Обучение модели ResNet50, у которой выход был заменён на один нейрон с выпрямленной линейной активацией для получения целевой величины возраста

В результате на обучающей выборке величина метрики MAE составила 2.2 года, а на тестовой - 6.6, то есть модель немного переобучилась.

Выпускной проект - телекоммуникации

Предсказание разрыва абонентом договора с телеком провайдером с использованием линейных и более сложных моделей.

Ход работы:

Предобработка данных
Генерация дополнительных признаков
Исследовательский анализ данных и корреляционный анализ
Подготовка Pipeline, обучение моделей и поиск лучшей с помощью GridSearchCV
Тестирование лучшей модели
Анализ важности признаков

Было установлено, что наилучшие результаты показывает CatBoostClassifier с максимальной глубиной 6. Метрика ROC-AUC на тестовой выборке состаляет 0.913 и даже превышает значения, полученные на обучающей - 0.876.

Выявлено, что чаще уходят клиенты, которые:

оплачивают услуги раз в год / два года
больше платят в месяц
пользуются услугами multiple_lines, online_backup и online_security

Также можно отметить, что видна сложная связь между целевой и contract_duration - сильно маленькие и сильно большие величины толкают ответ в класс 1

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
0_eda		0_eda
1_linear_models		1_linear_models
2_supervised_learning		2_supervised_learning
3_hr_analytics		3_hr_analytics
4_ml_for_business		4_ml_for_business
5_numerical_methods		5_numerical_methods
6_time_series		6_time_series
7_ml_for_texts		7_ml_for_texts
8_computer_vision		8_computer_vision
9_telecom		9_telecom
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проекты из курса Специалист по Data Science от Яндекс Практикума

Сборный проект 1 - исследовательский анализ данных и проверка гипотез

Линейные модели в машинном обучении

Обучение с учителем: качество модели

Сборный проект 2 - HR-аналитика

Машинное обучение в бизнесе

Численные методы

Временные ряды

Машинное обучение для текстов

Компьютерное зрение

Выпускной проект - телекоммуникации

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Проекты из курса Специалист по Data Science от Яндекс Практикума

Сборный проект 1 - исследовательский анализ данных и проверка гипотез

Линейные модели в машинном обучении

Обучение с учителем: качество модели

Сборный проект 2 - HR-аналитика

Машинное обучение в бизнесе

Численные методы

Временные ряды

Машинное обучение для текстов

Компьютерное зрение

Выпускной проект - телекоммуникации

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages