🕵️‍♀️ Wikipedia Scraper

A small Python tool that:

Calls the Country Leaders API to retrieve a list of countries and their past/present political leaders.
Visits each leader’s Wikipedia page and grabs the first paragraph of their biography.
Cleans that paragraph (removes footnote markers, pronunciation text, extra whitespace) with regular expressions.
Saves everything as nicely formatted JSON (leaders.json).

Features

Fast – reuses one requests.Session() connection for all Wikipedia calls
Cookie-aware – automatically refreshes API cookies if they expire One-command run – python leaders_scraper.py fetches → scrapes → cleans → saves

Installation

Clone the repository:

git clone https://github.com/evivelentza/wikipedia-scraper.git
cd wikipedia-scraper

(Recommended) Create and activate a virtual environment:

python3 -m venv clean_venv
source clean_venv/bin/activate

Install dependencies:

pip install beautifulsoup4
pip install requests

Usage

To run the scraper from the command line:

python3 leaders_scaper.py

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.ipynb_checkpoints		.ipynb_checkpoints
README.md		README.md
leaders.json		leaders.json
leaders_scraper.py		leaders_scraper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🕵️‍♀️ Wikipedia Scraper

Features

Installation

Usage

About

Uh oh!

Releases

Packages

Languages

evivelentza/wikipedia-scraper

Folders and files

Latest commit

History

Repository files navigation

🕵️‍♀️ Wikipedia Scraper

Features

Installation

Usage

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages