Skip to content

KuznetcovIvan/scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер документов PEP

Python Scrapy

Это парсер на Python, основанный на фреймворке Scrapy и предназначенный для извлечения и обработки данных с официального сайта предложений по улучшению Python (PEP).

Является переработанной версией парсера на библиотеке BeautifulSoup с которой можно ознакомится тут.

В функционал входит

  • парсинг данных обо всех документах PEP,
  • обработка и вывод количества PEP в каждом статусе, а также общего количества PEP.

Технологический стек

  • Python 3.9: Язык программирования.
  • Scrapy 2.5.1: Фреймворк для веб-парсинга.

Установка

  • Клонируйте проект с репозитория git clone https://github.com/KuznetcovIvan/scrapy_parser_pep.git.
  • Находясь в корне проекта создайте и активируйте виртуальное окружение python -m venv venv, source/venv/Script/activate (python3 -m venv venv, source venv/bin/activate для Linux / macOS).
  • Установите зависимости из файла requirements.txt pip install -r requirements.txt.

Использование

Находясь в корне проекта, запустите парсер командой scrapy crawl pep.

Парсер сохранит данные в файлы .csv в директорию results/:

  • файл со списком PEP (содержит колонки: number, name, status),
  • файл со сводкой по статусам (status, count)

Просмотреть справку по Scrapy scrapy crawl --help


About

Python documentation parser.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages