Add knowledge base RAG module for book Q&A

- Create knowledge.py handler with dynamic book selection - Support list/select/query actions for multiple books - Implement vector search with cosine similarity - Add knowledge detection to AI parser config - Cache embeddings per-book for performance
2026-02-16 11:20:22 -06:00
parent 362716e093
commit 0f270dbba2
3 changed files with 326 additions and 21 deletions
--- a/ai/ai_config.json
+++ b/ai/ai_config.json
--- a/bot/bot.py
+++ b/bot/bot.py
@@ -22,6 +22,7 @@ from bot.command_registry import get_handler, list_registered
 import ai.parser as ai_parser
 import bot.commands.routines  # noqa: F401 - registers handler
 import bot.commands.medications  # noqa: F401 - registers handler
+import bot.commands.knowledge  # noqa: F401 - registers handler

 DISCORD_BOT_TOKEN = os.getenv("DISCORD_BOT_TOKEN")
 API_URL = os.getenv("API_URL", "http://app:5000")
@@ -314,7 +315,9 @@ async def routeCommand(message):

    # Handle shortcuts when in active session
    if active_session:
-        shortcut_handled = await handleActiveSessionShortcuts(message, session, active_session)
+        shortcut_handled = await handleActiveSessionShortcuts(
+            message, session, active_session
+        )
        if shortcut_handled:
            return

@@ -330,7 +333,9 @@ async def routeCommand(message):
            total_steps = active_session.get("total_steps", 0)
            context = f"\n[Context: User is currently in active session for '{routine_name}', on step {current_step} of {total_steps}. They can say 'done', 'skip', 'pause', 'resume', or 'stop'.]"

-        parsed = ai_parser.parse(message.content + context, "command_parser", history=history)
+        parsed = ai_parser.parse(
+            message.content + context, "command_parser", history=history
+        )

        if discord_id not in message_history:
            message_history[discord_id] = []
--- a/bot/commands/knowledge.py
+++ b/bot/commands/knowledge.py
@@ -0,0 +1,300 @@
+"""
+Knowledge base command handler - RAG-powered Q&A from book embeddings
+Supports multiple books with user selection
+"""
+
+import os
+import json
+import glob
+import numpy as np
+from typing import List, Tuple, Optional, Dict
+from pathlib import Path
+
+from bot.command_registry import register_module
+import ai.parser as ai_parser
+from ai.parser import client
+
+# Configuration
+EPUBS_DIRECTORY = os.getenv("KNOWLEDGE_EMBEDDINGS_DIR", "../embedding-generator/epubs")
+TOP_K_CHUNKS = 5
+EMBEDDING_MODEL = "sentence-transformers/all-minilm-l12-l2"
+CHAT_MODEL = "deepseek/deepseek-v3.2"
+EMBEDDING_EXTENSION = ".embeddings.json"
+
+# Cache for loaded embeddings: {file_path: (chunks, embeddings, metadata)}
+_knowledge_cache: Dict[str, Tuple[List[str], List[List[float]], dict]] = {}
+
+
+def find_embedding_files() -> List[str]:
+    """Find all embedding files in the directory."""
+    os.makedirs(EPUBS_DIRECTORY, exist_ok=True)
+    pattern = os.path.join(EPUBS_DIRECTORY, f"*{EMBEDDING_EXTENSION}")
+    files = glob.glob(pattern)
+    return sorted(files)
+
+
+def get_book_name(file_path: str) -> str:
+    """Extract readable book name from file path."""
+    return (
+        Path(file_path).stem.replace(EMBEDDING_EXTENSION, "").replace(".", " ").title()
+    )
+
+
+def load_knowledge_base(
+    file_path: str,
+) -> Optional[Tuple[List[str], List[List[float]], dict]]:
+    """Load and cache a specific embeddings file."""
+    if file_path in _knowledge_cache:
+        return _knowledge_cache[file_path]
+
+    if not os.path.exists(file_path):
+        return None
+
+    with open(file_path, "r") as f:
+        data = json.load(f)
+
+    chunks = data.get("chunks", [])
+    embeddings = data.get("embeddings", [])
+    metadata = data.get("metadata", {})
+
+    # Add file_path to metadata for reference
+    metadata["_file_path"] = file_path
+
+    _knowledge_cache[file_path] = (chunks, embeddings, metadata)
+    return _knowledge_cache[file_path]
+
+
+def get_query_embedding(query: str) -> List[float]:
+    """Embed the user's question via OpenRouter."""
+    response = client.embeddings.create(model=EMBEDDING_MODEL, input=query)
+    return response.data[0].embedding
+
+
+def cosine_similarity(vec1: List[float], vec2: List[float]) -> float:
+    """Calculate similarity between two vectors."""
+    vec1 = np.array(vec1)
+    vec2 = np.array(vec2)
+    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))
+
+
+def search_context(
+    query_embedding: List[float],
+    chunks: List[str],
+    embeddings: List[List[float]],
+    top_k: int = 5,
+) -> Tuple[List[str], List[float]]:
+    """Find the most relevant chunks and return them with scores."""
+    scores = []
+    for i, emb in enumerate(embeddings):
+        score = cosine_similarity(query_embedding, emb)
+        scores.append((score, i))
+
+    scores.sort(key=lambda x: x[0], reverse=True)
+    top_chunks = [chunks[i] for score, i in scores[:top_k]]
+    top_scores = [score for score, i in scores[:top_k]]
+
+    return top_chunks, top_scores
+
+
+def generate_answer(query: str, context_chunks: List[str], book_title: str) -> str:
+    """Generate answer using DeepSeek via OpenRouter."""
+
+    context_text = "\n\n---\n\n".join(context_chunks)
+
+    system_prompt = f"""You are an expert assistant answering questions about "{book_title}".
+Answer based strictly on the provided context. If the answer isn't in the context, say you don't know.
+Do not make up information. Provide clear, helpful answers based on the book's content.
+
+Context from {book_title}:
+{context_text}"""
+
+    try:
+        response = client.chat.completions.create(
+            model=CHAT_MODEL,
+            messages=[
+                {"role": "system", "content": system_prompt},
+                {"role": "user", "content": query},
+            ],
+            temperature=0.1,
+        )
+        return response.choices[0].message.content
+    except Exception as e:
+        return f"❌ Error generating answer: {e}"
+
+
+def get_user_selected_book(session) -> Optional[str]:
+    """Get the currently selected book for a user."""
+    return session.get("knowledge_base", {}).get("selected_book")
+
+
+def set_user_selected_book(session, file_path: str):
+    """Set the selected book for a user."""
+    if "knowledge_base" not in session:
+        session["knowledge_base"] = {}
+    session["knowledge_base"]["selected_book"] = file_path
+
+
+async def handle_knowledge(message, session, parsed):
+    """Handle knowledge base queries with dynamic book selection."""
+    action = parsed.get("action", "query")
+
+    if action == "list":
+        embedding_files = find_embedding_files()
+
+        if not embedding_files:
+            await message.channel.send(
+                f"❌ No knowledge bases found in `{EPUBS_DIRECTORY}`"
+            )
+            return
+
+        lines = [f"{i + 1}. {get_book_name(f)}" for i, f in enumerate(embedding_files)]
+        current = get_user_selected_book(session)
+        current_text = (
+            f"\n\n📖 Currently selected: **{get_book_name(current)}**"
+            if current
+            else ""
+        )
+
+        await message.channel.send(
+            f"📚 **Available Knowledge Bases:**\n"
+            + "\n".join(lines)
+            + current_text
+            + "\n\nUse `ask <book number/name> <question>` or `select book <number/name>`"
+        )
+
+    elif action == "select":
+        book_identifier = parsed.get("book", "")
+        embedding_files = find_embedding_files()
+
+        if not embedding_files:
+            await message.channel.send("❌ No knowledge bases available.")
+            return
+
+        selected_file = None
+
+        # Try to parse as number
+        try:
+            book_num = int(book_identifier) - 1
+            if 0 <= book_num < len(embedding_files):
+                selected_file = embedding_files[book_num]
+        except (ValueError, TypeError):
+            # Try to match by name
+            book_lower = book_identifier.lower()
+            for f in embedding_files:
+                if book_lower in get_book_name(f).lower() or book_lower in f.lower():
+                    selected_file = f
+                    break
+
+        if not selected_file:
+            await message.channel.send(
+                f"❌ Could not find book '{book_identifier}'. Use `list books` to see available options."
+            )
+            return
+
+        set_user_selected_book(session, selected_file)
+        book_name = get_book_name(selected_file)
+        await message.channel.send(f"✅ Selected knowledge base: **{book_name}**")
+
+    elif action == "query":
+        query = parsed.get("query", "")
+        book_override = parsed.get("book", "")
+
+        if not query:
+            await message.channel.send(
+                "What would you like to know? (e.g., 'what does the book say about time management?')"
+            )
+            return
+
+        # Determine which book to use
+        selected_file = None
+
+        if book_override:
+            # User specified a book in the query
+            embedding_files = find_embedding_files()
+            book_lower = book_override.lower()
+
+            # Try number first
+            try:
+                book_num = int(book_override) - 1
+                if 0 <= book_num < len(embedding_files):
+                    selected_file = embedding_files[book_num]
+            except (ValueError, TypeError):
+                # Try name match
+                for f in embedding_files:
+                    if (
+                        book_lower in get_book_name(f).lower()
+                        or book_lower in f.lower()
+                    ):
+                        selected_file = f
+                        break
+        else:
+            # Use user's selected book or default to first available
+            selected_file = get_user_selected_book(session)
+            if not selected_file:
+                embedding_files = find_embedding_files()
+                if embedding_files:
+                    selected_file = embedding_files[0]
+                    set_user_selected_book(session, selected_file)
+
+        if not selected_file:
+            await message.channel.send(
+                "❌ No knowledge base available. Please check the embeddings directory."
+            )
+            return
+
+        # Load knowledge base
+        kb_data = load_knowledge_base(selected_file)
+        if kb_data is None:
+            await message.channel.send(
+                "❌ Error loading knowledge base. Please check the file path."
+            )
+            return
+
+        chunks, embeddings, metadata = kb_data
+        book_title = metadata.get("title", get_book_name(selected_file))
+
+        await message.channel.send(f"🔍 Searching **{book_title}**...")
+
+        try:
+            # Get query embedding and search
+            query_emb = get_query_embedding(query)
+            relevant_chunks, scores = search_context(
+                query_emb, chunks, embeddings, TOP_K_CHUNKS
+            )
+
+            # Generate answer
+            answer = generate_answer(query, relevant_chunks, book_title)
+
+            # Send response
+            await message.channel.send(f"📚 **Answer:**\n{answer}")
+
+        except Exception as e:
+            await message.channel.send(f"❌ Error processing query: {e}")
+
+    else:
+        await message.channel.send(
+            f"Unknown knowledge action: {action}. Try: list, select, or ask a question."
+        )
+
+
+def validate_knowledge_json(data):
+    """Validate parsed JSON for knowledge queries."""
+    errors = []
+
+    if not isinstance(data, dict):
+        return ["Response must be a JSON object"]
+
+    if "error" in data:
+        return []
+
+    if "action" not in data:
+        errors.append("Missing required field: action")
+
+    return errors
+
+
+# Register the module
+register_module("knowledge", handle_knowledge)
+
+# Register the validator
+ai_parser.register_validator("knowledge", validate_knowledge_json)