拼多多爬虫

screenshots

已爬取的商品信息条数(70w+):
商品信息示例:

description:

version2:

base on framework scrapy
爬取拼多多所有的商品信息

Requirements

python2
多代理
scrapy

Usage:

在proxy.py里填入自己的代理ip的api地址
在mongo_db.py配置一下本地MongoDB数据库的信息
根据自己的代理、网络带宽、主机性能等情况修改settings.py中的并发请求数CONCURRENT_REQUESTS

Version2 usage:

进入到 pdd_spider_v2目录下
先爬取所有二级、三级分类信息 scrapy crawl category_infos
爬取所有商品分类信息 scrapy crawl goods

To-do-list:

log:

2018.8.4 18:16:
goods num : 4312
2018.8.10 18:16:
goods num : 20414
2018.8.31 18:16:
goods num : 70w+

contact:

you can send email to me : NTI5ODgzNDA5QHFxLmNvbQ==

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
pdd_spider_v1		pdd_spider_v1
pdd_spider_v2		pdd_spider_v2
.DS_Store		.DS_Store
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

拼多多爬虫

screenshots

description:

Requirements

Usage:

Version2 usage:

To-do-list:

log:

contact:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

拼多多爬虫

screenshots

description:

Requirements

Usage:

Version2 usage:

To-do-list:

log:

contact:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages