Этот проект посвящен анализу данных о кредитных заявках с целью предсказания вероятности дефолта клиентов. Home Credit предоставляет займы людям с ограниченной кредитной историей, и наша задача — помочь компании лучше оценивать риски с помощью машинного обучения. Мы будем работать с реальными данными, строить модели и разрабатывать инструменты, которые могут использоваться в реальных бизнес-процессах.
Мы используем набор данных из соревнования Home Credit Default Risk, который включает:
- application_{train|test}.csv – основная информация о клиентах и их заявках.
- bureau.csv и bureau_balance.csv – история кредитов клиентов в других организациях.
- POS_CASH_balance.csv и credit_card_balance.csv – информация о покупках в кредит и остатках по картам.
- previous_application.csv – заявки клиентов на кредиты в прошлом.
- installments_payments.csv – история выплат по займам.
- HomeCredit_columns_description.csv – расшифровка всех полей в таблицах.
- Подготовка данных – чистка, обработка пропусков, удаление выбросов, кодирование категориальных признаков.
- Исследовательский анализ – визуализация данных, анализ распределений, проверка статистических гипотез, анализ временных изменений.
- Генерация новых признаков – создание информативных фич с помощью pandas и оценка их значимости.
- Разработка моделей – обучение линейных моделей, деревьев решений и ансамблей, подбор гиперпараметров, оценка качества по метрикам (Accuracy, Precision, Recall, F1, ROC AUC, MSE, RMSE).
- Инфраструктура и автоматизация – использование Linux-команд, настройка Git, работа с SQL-базами, автоматизация пайплайна с Git и DVC.
- Развертывание модели – интеграция модели в сервис, настройка CI/CD, внедрение правил антифрода.
- Python: основной язык
- Библиотеки: pandas, numpy, scikit-learn, matplotlib, seaborn, LightGBM, XGBoost
- Среда разработки: Jupyter Notebook, Google Colab
- Установите Poetry, если он еще не установлен:
pip install poetry
- Установите зависимости:
poetry install
- Разархивируйте данные в нужную папку.
- Запустите ноутбук и начните анализ.
По вопросам проекта можно писать на email: luzinsan@mail.ru