Skip to content

Luzinsan/credit_scoring

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Home Credit Default Risk

О проекте

Этот проект посвящен анализу данных о кредитных заявках с целью предсказания вероятности дефолта клиентов. Home Credit предоставляет займы людям с ограниченной кредитной историей, и наша задача — помочь компании лучше оценивать риски с помощью машинного обучения. Мы будем работать с реальными данными, строить модели и разрабатывать инструменты, которые могут использоваться в реальных бизнес-процессах.

Данные

Мы используем набор данных из соревнования Home Credit Default Risk, который включает:

  • application_{train|test}.csv – основная информация о клиентах и их заявках.
  • bureau.csv и bureau_balance.csv – история кредитов клиентов в других организациях.
  • POS_CASH_balance.csv и credit_card_balance.csv – информация о покупках в кредит и остатках по картам.
  • previous_application.csv – заявки клиентов на кредиты в прошлом.
  • installments_payments.csv – история выплат по займам.
  • HomeCredit_columns_description.csv – расшифровка всех полей в таблицах.

Основные этапы работы

  1. Подготовка данных – чистка, обработка пропусков, удаление выбросов, кодирование категориальных признаков.
  2. Исследовательский анализ – визуализация данных, анализ распределений, проверка статистических гипотез, анализ временных изменений.
  3. Генерация новых признаков – создание информативных фич с помощью pandas и оценка их значимости.
  4. Разработка моделей – обучение линейных моделей, деревьев решений и ансамблей, подбор гиперпараметров, оценка качества по метрикам (Accuracy, Precision, Recall, F1, ROC AUC, MSE, RMSE).
  5. Инфраструктура и автоматизация – использование Linux-команд, настройка Git, работа с SQL-базами, автоматизация пайплайна с Git и DVC.
  6. Развертывание модели – интеграция модели в сервис, настройка CI/CD, внедрение правил антифрода.

Технологии

  • Python: основной язык
  • Библиотеки: pandas, numpy, scikit-learn, matplotlib, seaborn, LightGBM, XGBoost
  • Среда разработки: Jupyter Notebook, Google Colab

Как запустить проект

  1. Установите Poetry, если он еще не установлен:
    pip install poetry
  2. Установите зависимости:
    poetry install
  3. Разархивируйте данные в нужную папку.
  4. Запустите ноутбук и начните анализ.

Контакты

По вопросам проекта можно писать на email: luzinsan@mail.ru

About

No description, website, or topics provided.

Resources

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors