Quantum RAG Benchmark - Agriculture

Comprehensive benchmark comparing Quantum-Enhanced RAG vs Classical RAG for agricultural information retrieval using real-world data from 50+ trusted sources.

Project Structure

Quantum-Rag-Benchmark-agri/
├── web_crawler.py              # Scrapes 50+ agricultural sources
├── quantum_rag.py              # Quantum-enhanced RAG system
├── classical_rag.py            # Classical RAG baseline
├── compare_rag_results.py      # Automated comparison script
├── run_pipeline.py             # Master pipeline runner
├── requirements.txt            # Python dependencies
├── setup_crawler.sh            # Crawler setup script
│
├── agricultural_data_complete/ # Web crawler output
│   ├── txt/                    # Clean TXT files (50+ sources)
│   ├── json/                   # Metadata files
│   └── logs/                   # Scraping statistics
│
├── old/                        # Original implementation
│   └── src/
│       ├── quantum_embeddings/ # Quantum feature maps
│       ├── quantum_rag.py      # Original quantum RAG
│       └── baseline_rag.py     # Original baseline
│
└── *.csv, *.json               # Results and logs

Features

🌐 Web Crawler

50+ Trusted Sources: FAO, USDA, World Bank, CGIAR, research institutions
Clean TXT Output: Perfect for RAG systems
Organized Storage: Separate folders for txt, json, logs
Automatic Merging: Creates unified corpus file

⚛️ Quantum RAG

Quantum Feature Maps: Angle, Amplitude, IQP embeddings
PennyLane & Qiskit: Multiple quantum backends
Hybrid Embeddings: Combines classical + quantum features
Configurable Qubits: 4-16 qubits supported

📊 Classical RAG (Baseline)

MiniLM Embeddings: Fast, 384-dimensional
Qdrant Vector DB: In-memory for speed
T5 Generation: Local answer generation
Gemini API Support: Optional cloud LLM

🔬 Comparison Framework

Automated Benchmarking: 10 test queries
Multiple Metrics: Speed, similarity, diversity, overlap
Statistical Analysis: Aggregate results
Export Formats: JSON and CSV

Quick Start

1. Install Dependencies

pip install -r requirements.txt
playwright install  # For web crawler

2. Run Complete Pipeline

python run_pipeline.py

This will:

Check dependencies
Run web crawler (if no data exists)
Run automated comparison
Generate results

3. Or Run Components Individually

# Step 1: Collect data (3-5 minutes)
python web_crawler.py

# Step 2: Run comparison
python compare_rag_results.py

# Step 3: Try interactive systems
python quantum_rag.py      # Quantum-enhanced
python classical_rag.py    # Classical baseline

Usage Examples

Web Crawler

# Full scraping (50+ sources)
python web_crawler.py

# Quick sample (10 sources for testing)
# Edit web_crawler.py and uncomment:
# asyncio.run(scrape_quick_sample())

Quantum RAG

python quantum_rag.py

Options:

Embedding Type: angle, amplitude, classical
Qubits: 4-16 (default: 8)
Interactive Mode: Ask questions in real-time

Classical RAG

python classical_rag.py

Features:

Fast classical embeddings
Same interface as Quantum RAG
Logs to CSV for comparison

Comparison

python compare_rag_results.py

Outputs:

rag_comparison_results.json - Detailed results
rag_comparison_results.csv - Spreadsheet format

Results & Metrics

The comparison evaluates:

Retrieval Speed
- Average time per query
- Speed ratio (quantum vs classical)
Retrieval Quality
- Average similarity scores
- Top-k overlap between systems
Source Diversity
- Variety of sources in results
- Coverage across corpus
Statistical Significance
- Aggregate metrics
- Per-query analysis

Configuration

Quantum Settings

In quantum_rag.py:

# Embedding types
- angle: Simple rotation-based (fast)
- amplitude: Dense state preparation (expressive)
- iqp: Instantaneous Quantum Polynomial (complex)

# Qubits
n_qubits = 8  # 4-16 recommended

Classical Settings

In classical_rag.py:

# Embedding model
embedder = SentenceTransformer("all-MiniLM-L6-v2")

# Chunk settings
chunk_size = 500  # words
overlap = 50      # words

Crawler Settings

In web_crawler.py:

# Delay between requests (be polite!)
delay = 3  # seconds

# Retry attempts
max_retries = 3

Data Sources

The web crawler collects from:

International Organizations (10)

FAO (Food and Agriculture Organization)
World Bank Agriculture
CGIAR Research

US Government (8)

USDA Farming, Crops, Livestock
Economic Research Service
National Agricultural Statistics

Other Governments (5)

UK DEFRA
EU Agriculture
Australia, India

Research Institutions (10+)

CIMMYT, IRRI, ICRISAT
IFPRI, CSIRO

Other (7)

AGRIS Database
Precision Agriculture
Sustainable Agriculture

Requirements

Python Packages

qdrant-client >= 1.7.0
sentence-transformers >= 2.2.2
transformers >= 4.35.0
crawl4ai >= 0.2.0
pennylane >= 0.33.0
qiskit >= 0.45.0
numpy, pandas, tqdm

Optional

google-generativeai (for Gemini API)
python-dotenv (for .env support)

Hardware

CPU: Any modern processor
RAM: 8GB+ recommended
Storage: 1GB for data
GPU: Not required (CPU mode)

Gemini API (Optional)

For better answer generation:

Get API key from https://makersuite.google.com/app/apikey
Create .env file:

GEMINI_API_KEY=your-api-key-here

Run any RAG system - it will auto-detect Gemini

Troubleshooting

Import Errors

pip install -r requirements.txt
playwright install

No Data Found

python web_crawler.py
# Wait 3-5 minutes for completion

Quantum Import Fails

pip install pennylane qiskit
# Or use classical mode

Crawler Fails

Check internet connection
Some sites may block automated access
URLs may have changed
Check logs in agricultural_data_complete/logs/

Performance Tips

Use Quick Sample First: Test with 10 sources before full scraping
Classical for Speed: Use classical RAG for fast prototyping
Lower Qubits: Start with 4-6 qubits for faster quantum processing
Cache Models: Models are cached after first download

Project Timeline

Data Collection: 3-5 minutes (web crawler)
Indexing: 2-3 minutes (first time)
Comparison: 1-2 minutes (10 queries)
Interactive Use: Real-time queries

Total: ~10 minutes for complete pipeline

Results Format

JSON Output

{
  "timestamp": "2025-11-03T...",
  "num_queries": 10,
  "queries": [...],
  "aggregates": {
    "classical": {...},
    "quantum": {...},
    "comparison": {...}
  }
}

CSV Output

Columns: query, classical_time, classical_similarity, quantum_time, quantum_similarity, overlap, speedup, score_improvement_pct

Contributing

Contributions welcome! Areas:

Additional data sources
New quantum feature maps
Evaluation metrics
Visualization tools

License

See LICENSE file in repository

Citation

If you use this benchmark in research:

@software{quantum_rag_agri_2025,
  title={Quantum RAG Benchmark - Agriculture},
  author={...},
  year={2025},
  url={https://github.com/abeer555/Quantum-Rag-Benchmark-agri}
}

Support

Issues: GitHub Issues
Docs: See WEB_CRAWLER_README.md for crawler details
Contact: Repository owner

Built with: PennyLane, Qiskit, Qdrant, Sentence Transformers, Crawl4AI

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
agricultural_data		agricultural_data
agricultural_data_complete		agricultural_data_complete
comparison_results		comparison_results
old		old
.gitignore		.gitignore
CRAWLER_IMPROVEMENTS.md		CRAWLER_IMPROVEMENTS.md
DATASET_EXPANSION.md		DATASET_EXPANSION.md
README.md		README.md
WEB_CRAWLER_README.md		WEB_CRAWLER_README.md
advanced_rag_comparison.py		advanced_rag_comparison.py
classical_rag.py		classical_rag.py
compare_rag_results.py		compare_rag_results.py
comparison.mkv		comparison.mkv
manual_logs.txt		manual_logs.txt
quantum_rag.py		quantum_rag.py
rag_comparison_results.csv		rag_comparison_results.csv
rag_comparison_results.json		rag_comparison_results.json
requirements.txt		requirements.txt
run_expanded_crawler.fish		run_expanded_crawler.fish
run_expanded_crawler.sh		run_expanded_crawler.sh
run_pipeline.py		run_pipeline.py
setup.sh		setup.sh
setup_crawler.sh		setup_crawler.sh
web_crawler.py		web_crawler.py

Folders and files

Latest commit

History

Repository files navigation

Quantum RAG Benchmark - Agriculture

Project Structure

Features

🌐 Web Crawler

⚛️ Quantum RAG

📊 Classical RAG (Baseline)

🔬 Comparison Framework

Quick Start

1. Install Dependencies

2. Run Complete Pipeline

3. Or Run Components Individually

Usage Examples

Web Crawler

Quantum RAG

Classical RAG

Comparison

Results & Metrics

Configuration

Quantum Settings

Classical Settings

Crawler Settings

Data Sources

Requirements

Python Packages

Optional

Hardware

Gemini API (Optional)

Troubleshooting

Import Errors

No Data Found

Quantum Import Fails

Crawler Fails

Performance Tips

Project Timeline

Results Format

JSON Output

CSV Output

Contributing

License

Citation

Support

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages