LightRAG - Simple and Fast Retrieval-Augmented Generation

Submitted on 8 Oct 2024

問題與動機

傳統 RAG 存在三個痛點：

只能搜索局部的問題點，很難思考全域問題
⇒ LightRAG 的目標是將文本轉為圖結構（entity + relation），並結合向量檢索，使模型能快速取得局部與全域知識，同時可增量更新（incremental update）。

文字 → [LLM抽實體+關係] → 建知識圖 → 
查詢(拆keyword) → 雙層檢索 → LLM生成答案

整體架構分成三大模組
LightRAG Framework.png

把「一堆文字」變成「一張關係圖」，
讓 RAG 系統能更懂誰跟誰有關，回答更準、更快、也能即時更新。

目標：

幫每個實體和關係生成：
- key（索引標題）
- value（簡短描述）
例如：
- key: "Beekeeper"
- value: "A person who manages bee colonies and produces honey."
把重複的實體合併，讓圖更乾淨。

詳細步驟：

實體與關係擷取 R(·)
- 使用 LLM（如 GPT-4o-mini）抽取 entity、relation
- e.g., 從 “Cardiologists assess symptoms…” 得出節點與邊：
  ("Cardiologists") → (diagnose) → ("Heart Disease")
LLM Profiling（生成 key-value） P(·)
- 每個 entity/relation 生成檢索用 key 與內容 value
- e.g., key: "Cardiologist", value: 簡述該職業與功能
- Relation 會擴充 global key（如「Healthcare」主題）
Deduplication D(·)
- 合併重複節點與邊，降低圖的冗餘度

最終得到 D̂ = (V̂, Ê)：包含所有文件的知識圖節點與邊。
優點：能做 multi-hop reasoning（多跳檢索）與全域語意聚合。

目標： 根據查詢類型（細節／概念），執行雙層檢索

Query Keyword Extraction
- 從 query 中萃取兩組關鍵詞：
  - k(l)：local keywords（具體實體）
  - k(g)：global keywords（主題／抽象概念）
Keyword Matching
- 使用 vector DB（Nano VectorDB）比對：
  - local → entity 節點
  - global → relation／主題邊
High-order Relatedness 擴展
- 取出檢索節點的 1-hop 鄰居 {vi ∈ Nv ∨ Ne}
- 增加上下文豐富度

→ 結果是兼具細節準確與語意廣度的檢索集合

步驟：

關鍵差異：

目標：快速整合新知識而不重建索引

當有新文件 D′：

優點：