Data Science: портфолио

Некоторые Интересные проекты и задачи, выполненные в период обучения
на курсе Специалист по Data Science от Яндекс Практикума в период 2022-2023.

Проекты из программы курса

1. Исследование надёжности заёмщиков — анализ банковских данных

Направления: Data Analyst, Финансовый аналитик
Сферы: Банковская сфера, Кредитование
Использовал: Python, Pandas, Seaborn, NumPy

Выполнил задачи: Загрузил, проанализировал и обработал данные. На основе статистики о платёжеспособности клиентов исследовал как влияют семейное положение, количество детей, цели кредитования и уровень дохода клиента на факт возврата кредита в срок. Предложил рекомендации по улучшению качества данных.

2. Исследование объявлений о продаже квартир

Направления: Data Analyst, Маркетинг-аналитик, Fraud-аналитик
Сферы: Интернет-сервисы, Площадки объявлений, Строительство
Использовал: Python, Pandas, Seaborn, Matplotlib, NumPy

Выполнил задачи: Обработал и проанализировал данные о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Определил факторы и параметры от которых зависит рыночная стоимость. Построил разного рода графики, вывел сводные таблицы для наглядности. Выделил населённые пункты с самой высокой и низкой стоимостью м², и как стоимость зависит от расстояния до центра города.

3. Прогнозирование оттока клиентов Банка

Направления: Машинное обучение, Классификация
Сферы: Бизнес, Инвестиции, Банковская сфера, Кредитование
Использовал: Python, Pandas, Sklearn, NumPy, Seaborn, Matplotlib

Выполнил задачи: Изучил, обработал и подготовил к обучению (OneHotEncoder, StandardScaler) исторические данные о поведении клиентов и расторжении договоров с банком. Применил Upsampling, Downsampling, метод взвешивания классов для борьбы с дисбалансом в классе. Обучил модели LogisticRegression, DecisionTreeClassifier, и RandomForestClassifier перебирая гиперпараметры для наилучшего результата. Выбрал лучшую модель по показателю F1. Протестировал модель на тестовой выборке и проверил её на адекватность, сравнив с DummyClassifier.

4. Прогнозирование количества заказов такси

Направления: Машинное обучение, Временные ряды, Регрессия
Сферы: Бизнес, Интернет-сервисы, Стартапы
Использовал: Python, Pandas, Sklearn, Statsmodels, NumPy, Seaborn, Matplotlib

Выполнил задачи: Обработал данные, ресемплировал по 1 часу, проверил монотонность. Изучил трендовую, сезонную и шумовую составляющие данных. Обучил модели LinearRegression, RandomForestRegressor, DecisionTreeRegressor, LightGBM, CatBoostRegressor с перебором гиперпараметров и выбрал лучшую. Добился минимального показателя ошибки RMSE.

5. Модель классификации комментариев

Направления: Машинное обучение, NLP, Классификация
Сферы: Интернет-сервисы, Стартапы, Мессенджеры, Службы поддержки пользователей
Использовал: Python, Pandas, Sklearn, WordNet, NLTK, TfidfVectorizer, NumPy, Seaborn, Matplotlib

Выполнил задачи: Проанализировал комментарии, произвел лемматизацию, токенизацию, очистку стоп-слов, векторизировал тексты. Построил с перебором гиперпараметров модели LogisticRegression, DecisionTreeClassifier, RandomForestClassifier, AdaBoostClassifier и выбрал лучшую. Добился максимального показателя F1-меры.

6. Модель определения стоимости автомобилей

Направления: Машинное обучение, Регрессия, Обработка данных
Сферы: Интернет-сервисы, Интернет-магазины, Бизнес
Использовал: Python, Pandas, Sklearn, Seaborn, Matplotlib

Выполнил задачи: В данных избавился от дублей, лишних признаков, обработал аномальные и нулевые значения, заполнил где мог отсутствующие данные. Закодировал OneHotEncoder категориальные и StandardScaler числовые признаки для модели линейной регрессии. Подготовил данные для моделей бустинга. Перебирая гиперпараметры построил модели LinearRegression, LightGBM и CatBoostRegressor (лучшая). В итоге добился минимальной ошибки, и получил RMSE 1623.81 на тестовой выборке.

7. Прогнозирование добычи нефти в регионе и расчет рисков

Направления: Машинное обучение, Регрессия, Разработка бизнес-модели, Финансовый аналитик
Сферы: Добывающие компании, Бизнес
Использовал: Python, Scikit-learn, Pandas, Seaborn, Matplotlib

Выполнил задачи: Исследовал данные в каждом из трёх возможных регионов добычи нефти (по 10 000 проб), изучил корреляции, сделал предобработку. Построил модели LinearRegression (метрика RMSE). Проанализировал возможную прибыль и риски техникой Bootstrap (выборки 200/500 скважин, 1000 проходов). Сделал выводы и предложил лучший регион для разработки скважин, исходя из минимальных Рисков (1.6%) и максмимальной Средней прибыли (440.7 млн.) с месторождений.

8. Определение возраста по фото покупателя супермаркета (CV)

Направления: Машинное обучение, Компьютерное зрение, Обработка изображений
Сферы: Бизнес, Безопасность, Оффлайн
Использовал: Python, Keras, Pandas, Yandex Compute Cloud (GPU)

Выполнил задачи: Произвел исследовательский анализ данных (7591 фото в датасете), вывел графики. Использовал предобученную сверточную сеть ResNet50, добавил дополнительные слои на выходе. Построил модель, которая определяет возраст человека по фотографии с ошибкой MAE всего 5.797.

Дополнительные задачи/проекты

Практические задачи по Computer Vision

Направления: Computer Vision Engineer, Data Analyst
Сферы: Компьютерное зрение, Машинное обучение, Нейронные сети, Обработка изображений
Использовал: Python, TensorFlow, Keras, Scikit-learn, Pandas

Научился решать задачи классификации и регрессии для изображений, выбирать оптимальный подход при решение практических задач компьютерного зрения, формулировать выводы. Успешно выполнил все задачи, среди которых: Многослойная сеть по готовому датасету, Свёрточная сеть LeNet+Adam по готовому датасету, Свёрточная сеть классификации фруктов по изображению, Классификация фруктов моделью ResNet в Keras по изображению. Использовал Yandex Compute Cloud (GPU), а также научился использовать GPU на локальной машине.

Практические задачи по SQL

Направления: Data Analyst, Data Engineer
Сферы: Банковская сфера, Интернет-сервисы, Big Data, Машинное обучение
Использовал: SQL, PySpark, pgAdmin, phpMyAdmin

Выполнил задачи: Применил SQL на практике, успешно выполнив задачи получения данных из базы данных (PostgreSQL/MySQL), используя: срезы данных, агрегирующие функции, объединения таблиц, подзапросы, временные таблицы и оконные функции. Попрактиковался в задачах создания БД, таблиц, и записи данных в базу с различными условиями.

_{Jupyter Notebook НЕ указываю в проектах как инструмент, т.к. он использовался практически повсеместно.}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Science: портфолио

Проекты из программы курса

1. Исследование надёжности заёмщиков — анализ банковских данных

2. Исследование объявлений о продаже квартир

3. Прогнозирование оттока клиентов Банка

4. Прогнозирование количества заказов такси

5. Модель классификации комментариев

6. Модель определения стоимости автомобилей

7. Прогнозирование добычи нефти в регионе и расчет рисков

8. Определение возраста по фото покупателя супермаркета (CV)

Дополнительные задачи/проекты

Практические задачи по Computer Vision

Практические задачи по SQL

About

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
1. Исследование надёжности заёмщиков — анализ банковских данных		1. Исследование надёжности заёмщиков — анализ банковских данных
2. Исследование объявлений о продаже квартир		2. Исследование объявлений о продаже квартир
3. Прогнозирование оттока клиентов Банка		3. Прогнозирование оттока клиентов Банка
4. Прогнозирование количества заказов такси		4. Прогнозирование количества заказов такси
5. Модель классификации комментариев		5. Модель классификации комментариев
6. Модель определения стоимости автомобилей		6. Модель определения стоимости автомобилей
7. Прогнозирование добычи нефти в регионе и расчет рисков		7. Прогнозирование добычи нефти в регионе и расчет рисков
8. Определение возраста по фото покупателя супермаркета		8. Определение возраста по фото покупателя супермаркета
Практические задачи по Computer Vision		Практические задачи по Computer Vision
Практические задачи по SQL		Практические задачи по SQL
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

Data Science: портфолио

Проекты из программы курса

1. Исследование надёжности заёмщиков — анализ банковских данных

2. Исследование объявлений о продаже квартир

3. Прогнозирование оттока клиентов Банка

4. Прогнозирование количества заказов такси

5. Модель классификации комментариев

6. Модель определения стоимости автомобилей

7. Прогнозирование добычи нефти в регионе и расчет рисков

8. Определение возраста по фото покупателя супермаркета (CV)

Дополнительные задачи/проекты

Практические задачи по Computer Vision

Практические задачи по SQL

About

Resources

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages