Document Intelligence RAG System

title	emoji	colorFrom	colorTo	sdk	sdk_version	app_file	pinned
Document Intelligence RAG	📚	blue	purple	docker	1.0	src/main.py	false

Document Intelligence RAG System

Production-grade Retrieval-Augmented Generation (RAG) system for analyzing research papers and documents with AI. Ask questions about your PDFs. Get answers grounded in your documents with source attribution.

Link

Enjoy: https://huggingface.co/spaces/aankitdas/doc-intelligence-rag

Features

PDF Ingestion: Extract text from PDFs using PDFProcessor
Document Chunking: Split documents into smaller chunks for better context
Embedding: Convert text chunks into vector embeddings using Ollama
Vector Storage: Store embeddings in ChromaDB for efficient retrieval
LLM Integration: Use Groq LLM for generating answers
Source Attribution: Track document origins for citation
FastAPI Integration: Build a REST API for easy access
Docker Support: Containerize the system for easy deployment
PDF Processing: Extract text from PDFs using PDFProcessor
Document Chunking: Split documents into smaller chunks for better context
Embedding: Convert text chunks into vector embeddings using Ollama
Vector Storage: Store embeddings in ChromaDB for efficient retrieval
LLM Integration: Use Groq LLM for generating answers
Source Attribution: Track document origins for citation
FastAPI Integration: Build a REST API for easy access
Docker Support: Containerize the system for easy deployment

Quickstart

Prerequisites

Python 3.12
Ollama
Groq API Key
ChromaDB
FastAPI
Uvicorn
PDFProcessor
Embeddings
LLM
Vector Store

Setup environment variables

# Clone repository
git clone https://github.com/aankitdas/document-intelligence-rag.git
cd document-intelligence-rag

# Install Ollama (one-time setup)
# Download from https://ollama.ai
ollama pull nomic-embed-text

# Start Ollama server (in background)
ollama serve

# Create Python environment
uv venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate

# Install dependencies
uv sync

# Set API keys
export GROQ_API_KEY="gsk_..."  # Get from https://console.groq.com

Prepare Documents

# Create a folder for documents
# Create papers folder
mkdir papers

# Add your PDFs to papers/
# Example: papers/research_paper.pdf

Run API

# Run API
uvicorn src.api.main:app --reload

Query API

# Query API
curl http://localhost:8000/ask -X POST -H "Content-Type: application/json" -d '{"question": "What is the main contribution of this paper?"}'

Tech Stack

Component	Technology	Why
Embeddings	Ollama (`nomic-embed-text`)	Local, free, 384-dimensional embeddings
Vector Database	Chroma	Persistent storage, fast similarity search, completely free
LLM	Groq (Llama 3.1)	Free API tier, very fast inference
Backend	FastAPI	Production-grade, async, automatic API docs
Frontend	HTML / CSS / JavaScript	Simple setup, no build tooling required
Package Manager	UV	Fast dependency resolution, deterministic environments

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.github/workflows		.github/workflows
evaluation_results		evaluation_results
frontend		frontend
notebooks		notebooks
src		src
.dockerignore		.dockerignore
.gitignore		.gitignore
.python-version		.python-version
Dockerfile		Dockerfile
README.md		README.md
main.py		main.py
pyproject-local.toml		pyproject-local.toml
pyproject.toml		pyproject.toml
requirements-railway.txt		requirements-railway.txt
sample_evaluation_data.py		sample_evaluation_data.py
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Document Intelligence RAG System

Link

Features

Quickstart

Prerequisites

Tech Stack

Testing Github Actions sync to HF spaces

About

Uh oh!

Releases

Packages

Languages

aankitdas/document-intelligence-rag

Folders and files

Latest commit

History

Repository files navigation

Document Intelligence RAG System

Link

Features

Quickstart

Prerequisites

Tech Stack

Testing Github Actions sync to HF spaces

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages