Skip to content

alserg/DS

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Science: портфолио

Некоторые Интересные проекты и задачи, выполненные в период обучения
на курсе Специалист по Data Science от Яндекс Практикума в период 2022-2023.

Проекты из программы курса

Направления: Data Analyst, Финансовый аналитик
Сферы: Банковская сфера, Кредитование
Использовал: Python, Pandas, Seaborn, NumPy

Выполнил задачи: Загрузил, проанализировал и обработал данные. На основе статистики о платёжеспособности клиентов исследовал как влияют семейное положение, количество детей, цели кредитования и уровень дохода клиента на факт возврата кредита в срок. Предложил рекомендации по улучшению качества данных.

Направления: Data Analyst, Маркетинг-аналитик, Fraud-аналитик
Сферы: Интернет-сервисы, Площадки объявлений, Строительство
Использовал: Python, Pandas, Seaborn, Matplotlib, NumPy

Выполнил задачи: Обработал и проанализировал данные о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Определил факторы и параметры от которых зависит рыночная стоимость. Построил разного рода графики, вывел сводные таблицы для наглядности. Выделил населённые пункты с самой высокой и низкой стоимостью м2, и как стоимость зависит от расстояния до центра города.

Направления: Машинное обучение, Классификация
Сферы: Бизнес, Инвестиции, Банковская сфера, Кредитование
Использовал: Python, Pandas, Sklearn, NumPy, Seaborn, Matplotlib

Выполнил задачи: Изучил, обработал и подготовил к обучению (OneHotEncoder, StandardScaler) исторические данные о поведении клиентов и расторжении договоров с банком. Применил Upsampling, Downsampling, метод взвешивания классов для борьбы с дисбалансом в классе. Обучил модели LogisticRegression, DecisionTreeClassifier, и RandomForestClassifier перебирая гиперпараметры для наилучшего результата. Выбрал лучшую модель по показателю F1. Протестировал модель на тестовой выборке и проверил её на адекватность, сравнив с DummyClassifier.

Направления: Машинное обучение, Временные ряды, Регрессия
Сферы: Бизнес, Интернет-сервисы, Стартапы
Использовал: Python, Pandas, Sklearn, Statsmodels, NumPy, Seaborn, Matplotlib

Выполнил задачи: Обработал данные, ресемплировал по 1 часу, проверил монотонность. Изучил трендовую, сезонную и шумовую составляющие данных. Обучил модели LinearRegression, RandomForestRegressor, DecisionTreeRegressor, LightGBM, CatBoostRegressor с перебором гиперпараметров и выбрал лучшую. Добился минимального показателя ошибки RMSE.

Направления: Машинное обучение, NLP, Классификация
Сферы: Интернет-сервисы, Стартапы, Мессенджеры, Службы поддержки пользователей
Использовал: Python, Pandas, Sklearn, WordNet, NLTK, TfidfVectorizer, NumPy, Seaborn, Matplotlib

Выполнил задачи: Проанализировал комментарии, произвел лемматизацию, токенизацию, очистку стоп-слов, векторизировал тексты. Построил с перебором гиперпараметров модели LogisticRegression, DecisionTreeClassifier, RandomForestClassifier, AdaBoostClassifier и выбрал лучшую. Добился максимального показателя F1-меры.

Направления: Машинное обучение, Регрессия, Обработка данных
Сферы: Интернет-сервисы, Интернет-магазины, Бизнес
Использовал: Python, Pandas, Sklearn, Seaborn, Matplotlib

Выполнил задачи: В данных избавился от дублей, лишних признаков, обработал аномальные и нулевые значения, заполнил где мог отсутствующие данные. Закодировал OneHotEncoder категориальные и StandardScaler числовые признаки для модели линейной регрессии. Подготовил данные для моделей бустинга. Перебирая гиперпараметры построил модели LinearRegression, LightGBM и CatBoostRegressor (лучшая). В итоге добился минимальной ошибки, и получил RMSE 1623.81 на тестовой выборке.

Направления: Машинное обучение, Регрессия, Разработка бизнес-модели, Финансовый аналитик
Сферы: Добывающие компании, Бизнес
Использовал: Python, Scikit-learn, Pandas, Seaborn, Matplotlib

Выполнил задачи: Исследовал данные в каждом из трёх возможных регионов добычи нефти (по 10 000 проб), изучил корреляции, сделал предобработку. Построил модели LinearRegression (метрика RMSE). Проанализировал возможную прибыль и риски техникой Bootstrap (выборки 200/500 скважин, 1000 проходов). Сделал выводы и предложил лучший регион для разработки скважин, исходя из минимальных Рисков (1.6%) и максмимальной Средней прибыли (440.7 млн.) с месторождений.

Направления: Машинное обучение, Компьютерное зрение, Обработка изображений
Сферы: Бизнес, Безопасность, Оффлайн
Использовал: Python, Keras, Pandas, Yandex Compute Cloud (GPU)

Выполнил задачи: Произвел исследовательский анализ данных (7591 фото в датасете), вывел графики. Использовал предобученную сверточную сеть ResNet50, добавил дополнительные слои на выходе. Построил модель, которая определяет возраст человека по фотографии с ошибкой MAE всего 5.797.

Дополнительные задачи/проекты

Направления: Computer Vision Engineer, Data Analyst
Сферы: Компьютерное зрение, Машинное обучение, Нейронные сети, Обработка изображений
Использовал: Python, TensorFlow, Keras, Scikit-learn, Pandas

Научился решать задачи классификации и регрессии для изображений, выбирать оптимальный подход при решение практических задач компьютерного зрения, формулировать выводы. Успешно выполнил все задачи, среди которых: Многослойная сеть по готовому датасету, Свёрточная сеть LeNet+Adam по готовому датасету, Свёрточная сеть классификации фруктов по изображению, Классификация фруктов моделью ResNet в Keras по изображению. Использовал Yandex Compute Cloud (GPU), а также научился использовать GPU на локальной машине.

Направления: Data Analyst, Data Engineer
Сферы: Банковская сфера, Интернет-сервисы, Big Data, Машинное обучение
Использовал: SQL, PySpark, pgAdmin, phpMyAdmin

Выполнил задачи: Применил SQL на практике, успешно выполнив задачи получения данных из базы данных (PostgreSQL/MySQL), используя: срезы данных, агрегирующие функции, объединения таблиц, подзапросы, временные таблицы и оконные функции. Попрактиковался в задачах создания БД, таблиц, и записи данных в базу с различными условиями.


Jupyter Notebook НЕ указываю в проектах как инструмент, т.к. он использовался практически повсеместно.

About

My best projects made during the period of study on the platform "Yandex Practicum" for the profession of data scientist.

Resources

Stars

Watchers

Forks

Contributors