LongLLMLingua - Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

簡介與動機

LLMLingua 是透過小型的語言模型 (e.g. GPT2-small) 來壓縮 Prompt 的技術，透過刪除不重要的 token，減少成本與延遲，甚至可達 20 倍壓縮率

LongLLMLingua
⇒ 進一步針對 長上下文情境（Long Context） 解決：

成本與延遲上升
- Porompt 越長，輸入 Token 越多，成本上升
- 長序列會增加 LLM 的計算複雜度造成延遲變長
  （e.g Transformer 為 O(n²)）
- ⇒ 在實際應用中(如聊天機器人)，快速與低成本是關鍵需求，直接影響可落地性與用戶體驗
模型性能下降
- 長 Prompt 若有雜訊與冗詞，稀釋關鍵資訊密度
- 若 處理雜訊能力仍有限，會導致預測不準
- ⇒ 提高資訊密度才是真正有效的提示設計
資訊位置偏差（例如關鍵資訊被夾在中間失效，"Lost in the Middle" 問題）
- 開頭與結尾的資訊較敏感，中間區段常被忽略
- 類似還有 LONGAGENT - Scaling Language Models to 128k Context through Multi-Agent Collaboration
- ⇒ 若模型無法穩定掌握中間內容，將嚴重限制其效能與可靠性

Framework of LongLLMLingua.png

第一層：粗粒度壓縮
- 利用小模型根據 Question 計算每份文件的重要性 $r_{k}$ ，指保留重要文件
- 利用小模型根據問題（Question）來計算每份文件的重要性（r_k），只保留重要文件。
- $r_{k} = - \frac{1}{N_{c}} \sum_{i} \log p (x_{i}^{q u e, r e s t r i c t} ∣ x_{k}^{d o c})$
  - 用來衡量第 $k$ 個文件的重要性，數值越大代表越關鍵
  - 若我有這份文件，是否能產生這個問題？
    = 衡量該文件是否包含解釋問題的資訊
第二層：細粒度壓縮
- 對保留的文件進行逐字（token-level）壓縮
- 引入 對比困惑度（Contrastive Perplexity）：
- $s_{i} = perplexity (x_{i} ∣ context) - perplexity (x_{i} ∣ question + context)$
  - 能更準確評估 token 是否與問題有關

限制語句（Restriction Sentence）

額外附加在問題（Question）後的一小段話，目的是限制模型回答的範圍，因為 LLMs 計算困惑度時，可能會預設猜測常見問法，而模型可能會使用本身知識回答，這會讓模型產生幻覺、或回答資訊不可靠等問題