Это парсер на Python, основанный на фреймворке Scrapy и предназначенный для извлечения и обработки данных с официального сайта предложений по улучшению Python (PEP).
Является переработанной версией парсера на библиотеке BeautifulSoup с которой можно ознакомится тут.
В функционал входит
- парсинг данных обо всех документах PEP,
- обработка и вывод количества PEP в каждом статусе, а также общего количества PEP.
- Python 3.9: Язык программирования.
- Scrapy 2.5.1: Фреймворк для веб-парсинга.
- Клонируйте проект с репозитория
git clone https://github.com/KuznetcovIvan/scrapy_parser_pep.git
. - Находясь в корне проекта создайте и активируйте виртуальное окружение
python -m venv venv
,source/venv/Script/activate
(python3 -m venv venv
,source venv/bin/activate
для Linux / macOS). - Установите зависимости из файла requirements.txt
pip install -r requirements.txt
.
Находясь в корне проекта, запустите парсер командой scrapy crawl pep
.
Парсер сохранит данные в файлы .csv в директорию results/
:
- файл со списком PEP (содержит колонки: number, name, status),
- файл со сводкой по статусам (status, count)
Просмотреть справку по Scrapy scrapy crawl --help