ema_scraper

A scraper for ema.europa.eu, hobby project

Basic functionality

The scraper does scrape the web page into a mongoDB database with the aim to provide a dataset for developing of a graph RAG retrieval pipeline.

ema-rag/
- config.yaml - All configuration (patterns, paths, etc.)
- config_loader.py - YAML config loading
- run_crawl.py - Entry point for crawling
- explore_graph.py - Explore graph after crawling
- requirements.txt
- scraper/
  - spider.py - Thin orchestrator
  - classifiers.py - URL classification (Strategy pattern)
  - extractors.py - Content extraction (Strategy pattern)
  - items.py - Data containers
  - pipelines.py - Spider output → Graph
  - settings.py - Scrapy settings
storage/
- pymongodb.py - Connector to MongoDB(Repository pattern)
parsers/ - PDF parsing (Strategy + Factory)
- base.py
- __init__.py - Factory: get_parser()
- pymupdf_parser.py
embeddings/ - Embedding models (Strategy + Factory)
- base.py
- __init__.py
- local_hf.py
vectordb/ - Vector store (for later)

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.vscode		.vscode
ema_scraper		ema_scraper
storage		storage
.gitignore		.gitignore
LICENSE		LICENSE
NOTES.md		NOTES.md
README.md		README.md
check_item_count.py		check_item_count.py
config.yml		config.yml
config_loader.py		config_loader.py
dev_scratchpad.py		dev_scratchpad.py
init_project.sh		init_project.sh
mongodb_connect.py		mongodb_connect.py
requirements.yml		requirements.yml
run_json_spider.py		run_json_spider.py
run_spider.py		run_spider.py