Blog Spider

Generic spider for extracting information from blog posts.

Install dependencies

pip install -r requirements.txt

This spider depends on sitemap.xml files to scrape every blog post in given domains.

The output file format is domain_YYYY-MM-DD-hh-mm-ss.jsonl

scrapy crawl generic -a start_urls=https://www.nomadicmatt.com,https://worldofwanderlust.com -s  OUTPUT_PATH=crawled/

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
blog_spider		blog_spider
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg