沪漂小窝租房信息分类系统（学习项目）

由于豆瓣的原因，关闭了租房类小组，所以爬虫已经失效，本项目改成学习项目，详情看learn分支

learn分支（当前默认）：项目学习分支，请使用此分支，提供数据Api接口

master分支是沪漂小窝v3.0,单城市（仅上海）版本

manycities分支是沪漂小窝v4.0,多城市版本。

目前支持的城市：上海、北京、广州、深圳、杭州、南京、武汉、重庆、成都。

使用步骤

环境配置部分

先安装环境，相关包参考requirements.txt,文件中可能不是最新版本的,不确定最新版的包是否存在兼容问题
首先需要自己搭建数据库（MySQL5.7以上），自行百度安装，然后在数据库中运行db文件夹中的建表语句
修改config.py 数据库的相关配置，根据实际情况修改，主要是用户名和密码
修改config.py 的project_path，值为当前文件的目录的绝对路径，用于分类模型的读取
修改config.py 的username。此为数据付费接口api的授权账号，20元/账号，提供16w数据供使用，详情联系作者获取。

PyCharm 部分

推荐开发工具为PyCharm，因为涉及到web开发，需要专业版，自行获取。
项目导入的PyCharm后，找到第一级的myScrapy目录，右键标记文件夹为资源目录，否则有的文件引用的路径找不到。

Scrapy 爬虫部分

上面的配置都完成后，启动myScrapy/main.py 运行Scrapy，现在爬虫开始工作

Flask web部分

直接启动 python app.py,Flask查询服务启动,默认访问地址是 http://127.0.0.1:5000。需要数据库中有数据后才可以展示

更新日志：

2022/04/18 更新learn学习版本分支
2021/08/17 更新数据库配置文件
2021/08/17 更新项目依赖包文件
2021/06/09 修复并发下载内容重复的问题
2021/06/01 添加搜中介功能
2021/05/27 提交多版本代码,在manycities分支上，master分支需要配合案例，并没有合并
2021/05/25 创建新的分支-manycities,用于多城市版本的开发
2021/05/24 修改文件路径为相对路径，减少配置项目
2021/05/19 添加按照title的相似度去重，阈值在0.65,也就是说，如果待入库的帖子在同一个创建者id下近30天有发布相似度超0.65的帖子时，不进行入库，直接pasd

改进

出租类型改动自己训练的分类器，模型准确率在98%以上
新增web端的源码
新增帖子预测，预测帖子是否是中介帖子

文件说明

db 数据库DDL文件
myScrapy 爬虫功能

classify 分类器
- feature_spAce 特征向量
- models 模型
- text 原始语料库
- text2 分组后语料库
- baidu_stopwords.txt 停用词
myScrapy Scrapy核心文件
- mysql 数据库工具包
- rent 信息分类工具
- spiders 豆瓣爬虫 (提供api接口的爬虫功能)
utils 公共工具包

myweb web功能

static 静态文件
emplates 模板文件
app.py flas框架核心文件

联系作者

添加微信【mlscoder】

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
db		db
myScrapy		myScrapy
myWeb		myWeb
LICENSE		LICENSE
README.md		README.md
config.py		config.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

沪漂小窝租房信息分类系统（学习项目）

learn分支（当前默认）：项目学习分支，请使用此分支，提供数据Api接口

master分支是沪漂小窝v3.0,单城市（仅上海）版本

manycities分支是沪漂小窝v4.0,多城市版本。

使用步骤

环境配置部分

PyCharm 部分

Scrapy 爬虫部分

Flask web部分

更新日志：

改进

文件说明

联系作者

About

Uh oh!

Releases 1

Packages

Uh oh!

Languages

License

mlscoder/hupiao

Folders and files

Latest commit

History

Repository files navigation

沪漂小窝租房信息分类系统（学习项目）

learn分支（当前默认）：项目学习分支，请使用此分支，提供数据Api接口

master分支是沪漂小窝v3.0,单城市（仅上海）版本

manycities分支是沪漂小窝v4.0,多城市版本。

使用步骤

环境配置部分

PyCharm 部分

Scrapy 爬虫部分

Flask web部分

更新日志：

改进

文件说明

联系作者

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Languages

Packages