version2:
- base on framework
scrapy - 爬取拼多多所有的商品信息
- python2
- 多代理
scrapy
- 在
proxy.py里填入自己的代理ip的api地址 - 在
mongo_db.py配置一下本地MongoDB数据库的信息 - 根据自己的代理、网络带宽、主机性能等情况修改
settings.py中的并发请求数CONCURRENT_REQUESTS
- 进入到
pdd_spider_v2目录下 - 先爬取所有二级、三级分类信息
scrapy crawl category_infos - 爬取所有商品分类信息
scrapy crawl goods
- 爬取分类信息(一级-二级)
- MongoDB入库
- 入分类信息
- 爬取某一级分类下的所有商品信息
- 入库-入商品信息
- 入库-入offset_num信息
- 修改成scrapy框架
- 优化代码
- 减少页面的爬取
- 2018.8.4 18:16:
- goods num : 4312
- 2018.8.10 18:16:
- goods num : 20414
- 2018.8.31 18:16:
- goods num : 70w+
you can send email to me : NTI5ODgzNDA5QHFxLmNvbQ==

