Skip to content

lEternityl/data-analyse

Repository files navigation

数据分析项目文档

项目概述

本项目聚焦于数据驱动的模型构建与分析任务,核心目标为信用相关模型的训练、评估及可视化展示,整合了Python与R两种语言的分析能力。

数据集来源: 阿里云天池 - 信用评估数据集

项目背景: 随着我国疫情管控政策开放后,互联网消费金融在国民经济复苏和增长方面扮演了积极的角色。但是,由于消费金融产品的特殊性以及其快速发展的趋势,也使得行业面临着较大的风险。与此同时,随着居民消费观的转变,“信用贷款消费”已成为普遍现象,阿里的花呗、蚂蚁积分、人人贷等金融网贷平台凭借高效便捷的服务迅速吸引力大量的群众。然而,由于信息不对称导致金融网络借贷信用风险日益凸显。一些信用良好且还款能力强的客户往往也因此被拒之门外。同时每年都有众多金融信贷机构因为资金链断裂、违约、骗贷等原因而倒闭停业,其数量已高达上千家。这表明,对于金融信贷机构而言,进行准确评估和控制信用风险至关重要,只有这样才能保持平稳的运营状态。基于此背景下,建立个人信贷信用评分模型对于网贷平台开展个人消费信贷业务具有重要作用,其一方面可以消除高风险借款人减少个人消费信贷违约风险,其另一方面可以寻找“高质量”的信贷人,实现双赢局面。由此可见,金融信用风险评估的研究在消费信贷领域中是一个亟待解决的问题。

核心文件说明

文件名 功能描述
analyse.R R语言实现的辅助数据分析脚本,用于补充Python分析之外的统计分析逻辑
app.py Streamlit可视化应用脚本(当前有终端正在运行),用于展示模型结果与分析图表
best_credit_model.pkl 序列化存储的最优信用模型文件,可直接加载用于预测任务
feature_importance_py.png 特征重要性分析结果图,直观展示各特征对模型预测的贡献度
roc_comparison.png 模型ROC曲线对比图,用于评估不同模型的分类性能
scaler.pkl 数据标准化处理器的序列化文件,确保预测数据与训练数据采用一致的标准化逻辑
train.csv 模型训练所用的原始数据集,包含特征列与标签列
特征模型.py Python实现的核心脚本,涵盖特征工程、模型训练与评估的完整流程

基础使用步骤

  1. 数据集校验:确认train.csv文件存在于项目目录且格式正确
  2. 模型重建:运行「特征模型.py」脚本,重新生成模型与标准化处理器文件
  3. 可视化展示:通过streamlit run app.py命令启动Web应用查看分析结果
  4. 补充分析:运行analyse.R脚本获取额外的统计分析结论

注意事项

  • .pkl格式文件为序列化存储文件,请勿直接编辑,避免模型或处理器失效
  • 可视化图表文件为脚本运行输出产物,可通过重新运行对应脚本更新内容

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published