RAG System for Legislation Study with Gemini 2.5 Pro

System Architecture Overview

PDF Document → Text Extraction → Chunking → Embedding → Vector DB → RAG Pipeline → Gemini 2.5 Pro → Response with Citations & Confidence

1. Document Processing Pipeline

PDF Text Extraction

See document_processing.py

Intelligent Chunking Strategy

See document_processing.py

2. Vector Database Setup

Using Chroma DB (Local & Free)

See vector_database.py

3. RAG Pipeline Implementation

See rag_pipeline.py

4. Complete System Setup

See system_setup.py

5. Enhanced Features

Query Expansion

See enhanced_features.py

Citation Verification

See enhanced_features.py

6. Web Interface (Optional)

See web_interface.py

7. Cost Optimization Tips

Batch embedding generation to reduce API calls
Cache embeddings locally to avoid regenerating
Use smaller chunks for more precise retrieval
Implement query similarity to avoid duplicate processing
Set up rate limiting for API calls

8. Evaluation Metrics

def evaluate_system(rag_system, test_questions: List[dict]):
    """Evaluate system performance"""
    metrics = {
        'accuracy': [],
        'confidence_calibration': [],
        'citation_accuracy': []
    }
    
    for qa_pair in test_questions:
        result = rag_system.ask_question(qa_pair['question'])
        
        # Compare with ground truth
        accuracy = calculate_answer_similarity(
            result['answer'], 
            qa_pair['expected_answer']
        )
        metrics['accuracy'].append(accuracy)
        
        # More evaluation logic...
    
    return metrics

This system provides a robust foundation for studying legislation with precise answers, proper citations, and confidence scoring. The modular design allows you to customize each component based on your specific needs and computational resources.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.vscode		.vscode
.gitignore		.gitignore
README.md		README.md
ctb.pdf		ctb.pdf
document_processing.py		document_processing.py
rag_pipeline.py		rag_pipeline.py
requirements.txt		requirements.txt
streamlit_app.py		streamlit_app.py
system_setup.py		system_setup.py
vector_database.py		vector_database.py
web_interface.py		web_interface.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAG System for Legislation Study with Gemini 2.5 Pro

System Architecture Overview

1. Document Processing Pipeline

PDF Text Extraction

Intelligent Chunking Strategy

2. Vector Database Setup

Using Chroma DB (Local & Free)

3. RAG Pipeline Implementation

4. Complete System Setup

5. Enhanced Features

Query Expansion

Citation Verification

6. Web Interface (Optional)

7. Cost Optimization Tips

8. Evaluation Metrics

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

RAG System for Legislation Study with Gemini 2.5 Pro

System Architecture Overview

1. Document Processing Pipeline

PDF Text Extraction

Intelligent Chunking Strategy

2. Vector Database Setup

Using Chroma DB (Local & Free)

3. RAG Pipeline Implementation

4. Complete System Setup

5. Enhanced Features

Query Expansion

Citation Verification

6. Web Interface (Optional)

7. Cost Optimization Tips

8. Evaluation Metrics

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages