Некоторые Интересные проекты и задачи, выполненные в период обучения
на курсе Специалист по Data Science от Яндекс Практикума в период 2022-2023.
Направления: Data Analyst, Финансовый аналитик
Сферы: Банковская сфера, Кредитование
Использовал: Python, Pandas, Seaborn, NumPy
Выполнил задачи: Загрузил, проанализировал и обработал данные. На основе статистики о платёжеспособности клиентов исследовал как влияют семейное положение, количество детей, цели кредитования и уровень дохода клиента на факт возврата кредита в срок. Предложил рекомендации по улучшению качества данных.
Направления: Data Analyst, Маркетинг-аналитик, Fraud-аналитик
Сферы: Интернет-сервисы, Площадки объявлений, Строительство
Использовал: Python, Pandas, Seaborn, Matplotlib, NumPy
Выполнил задачи: Обработал и проанализировал данные о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Определил факторы и параметры от которых зависит рыночная стоимость. Построил разного рода графики, вывел сводные таблицы для наглядности. Выделил населённые пункты с самой высокой и низкой стоимостью м2, и как стоимость зависит от расстояния до центра города.
Направления: Машинное обучение, Классификация
Сферы: Бизнес, Инвестиции, Банковская сфера, Кредитование
Использовал: Python, Pandas, Sklearn, NumPy, Seaborn, Matplotlib
Выполнил задачи: Изучил, обработал и подготовил к обучению (OneHotEncoder, StandardScaler) исторические данные о поведении клиентов и расторжении договоров с банком. Применил Upsampling, Downsampling, метод взвешивания классов для борьбы с дисбалансом в классе. Обучил модели LogisticRegression, DecisionTreeClassifier, и RandomForestClassifier перебирая гиперпараметры для наилучшего результата. Выбрал лучшую модель по показателю F1. Протестировал модель на тестовой выборке и проверил её на адекватность, сравнив с DummyClassifier.
Направления: Машинное обучение, Временные ряды, Регрессия
Сферы: Бизнес, Интернет-сервисы, Стартапы
Использовал: Python, Pandas, Sklearn, Statsmodels, NumPy, Seaborn, Matplotlib
Выполнил задачи: Обработал данные, ресемплировал по 1 часу, проверил монотонность. Изучил трендовую, сезонную и шумовую составляющие данных. Обучил модели LinearRegression, RandomForestRegressor, DecisionTreeRegressor, LightGBM, CatBoostRegressor с перебором гиперпараметров и выбрал лучшую. Добился минимального показателя ошибки RMSE.
Направления: Машинное обучение, NLP, Классификация
Сферы: Интернет-сервисы, Стартапы, Мессенджеры, Службы поддержки пользователей
Использовал: Python, Pandas, Sklearn, WordNet, NLTK, TfidfVectorizer, NumPy, Seaborn, Matplotlib
Выполнил задачи: Проанализировал комментарии, произвел лемматизацию, токенизацию, очистку стоп-слов, векторизировал тексты. Построил с перебором гиперпараметров модели LogisticRegression, DecisionTreeClassifier, RandomForestClassifier, AdaBoostClassifier и выбрал лучшую. Добился максимального показателя F1-меры.
Направления: Машинное обучение, Регрессия, Обработка данных
Сферы: Интернет-сервисы, Интернет-магазины, Бизнес
Использовал: Python, Pandas, Sklearn, Seaborn, Matplotlib
Выполнил задачи: В данных избавился от дублей, лишних признаков, обработал аномальные и нулевые значения, заполнил где мог отсутствующие данные. Закодировал OneHotEncoder категориальные и StandardScaler числовые признаки для модели линейной регрессии. Подготовил данные для моделей бустинга. Перебирая гиперпараметры построил модели LinearRegression, LightGBM и CatBoostRegressor (лучшая). В итоге добился минимальной ошибки, и получил RMSE 1623.81 на тестовой выборке.
Направления: Машинное обучение, Регрессия, Разработка бизнес-модели, Финансовый аналитик
Сферы: Добывающие компании, Бизнес
Использовал: Python, Scikit-learn, Pandas, Seaborn, Matplotlib
Выполнил задачи: Исследовал данные в каждом из трёх возможных регионов добычи нефти (по 10 000 проб), изучил корреляции, сделал предобработку. Построил модели LinearRegression (метрика RMSE). Проанализировал возможную прибыль и риски техникой Bootstrap (выборки 200/500 скважин, 1000 проходов). Сделал выводы и предложил лучший регион для разработки скважин, исходя из минимальных Рисков (1.6%) и максмимальной Средней прибыли (440.7 млн.) с месторождений.
Направления: Машинное обучение, Компьютерное зрение, Обработка изображений
Сферы: Бизнес, Безопасность, Оффлайн
Использовал: Python, Keras, Pandas, Yandex Compute Cloud (GPU)
Выполнил задачи: Произвел исследовательский анализ данных (7591 фото в датасете), вывел графики. Использовал предобученную сверточную сеть ResNet50, добавил дополнительные слои на выходе. Построил модель, которая определяет возраст человека по фотографии с ошибкой MAE всего 5.797.
Направления: Computer Vision Engineer, Data Analyst
Сферы: Компьютерное зрение, Машинное обучение, Нейронные сети, Обработка изображений
Использовал: Python, TensorFlow, Keras, Scikit-learn, Pandas
Научился решать задачи классификации и регрессии для изображений, выбирать оптимальный подход при решение практических задач компьютерного зрения, формулировать выводы. Успешно выполнил все задачи, среди которых: Многослойная сеть по готовому датасету, Свёрточная сеть LeNet+Adam по готовому датасету, Свёрточная сеть классификации фруктов по изображению, Классификация фруктов моделью ResNet в Keras по изображению. Использовал Yandex Compute Cloud (GPU), а также научился использовать GPU на локальной машине.
Направления: Data Analyst, Data Engineer
Сферы: Банковская сфера, Интернет-сервисы, Big Data, Машинное обучение
Использовал: SQL, PySpark, pgAdmin, phpMyAdmin
Выполнил задачи: Применил SQL на практике, успешно выполнив задачи получения данных из базы данных (PostgreSQL/MySQL), используя: срезы данных, агрегирующие функции, объединения таблиц, подзапросы, временные таблицы и оконные функции. Попрактиковался в задачах создания БД, таблиц, и записи данных в базу с различными условиями.
Jupyter Notebook НЕ указываю в проектах как инструмент, т.к. он использовался практически повсеместно.