LongLLMLingua - Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression

簡介與動機

LLMLingua 是透過小型的語言模型 (e.g. GPT2-small) 來壓縮 Prompt 的技術,透過刪除不重要的 token,減少成本與延遲,甚至可達 20 倍壓縮率

LongLLMLingua
⇒ 進一步針對 長上下文情境(Long Context) 解決:

  1. 成本與延遲上升
    • Porompt 越長,輸入 Token 越多,成本上升
    • 長序列會增加 LLM 的計算複雜度造成延遲變長
      (e.g Transformer 為 O(n²))
    • ⇒ 在實際應用中(如聊天機器人),快速與低成本是關鍵需求,直接影響可落地性與用戶體驗
  2. 模型性能下降
    • 長 Prompt 若有雜訊與冗詞,稀釋關鍵資訊密度
    • 處理雜訊能力仍有限,會導致預測不準
    • ⇒ 提高資訊密度才是真正有效的提示設計
  3. 資訊位置偏差(例如關鍵資訊被夾在中間失效,"Lost in the Middle" 問題)

Framework of LongLLMLingua.png


核心技術概念

1. 兩層壓縮架構(Coarse-to-Fine)

限制語句(Restriction Sentence)

額外附加在問題(Question)後的一小段話,目的是限制模型回答的範圍,因為 LLMs 計算困惑度時,可能會預設猜測常見問法,而模型可能會使用本身知識回答,這會讓模型產生幻覺、或回答資訊不可靠等問題

  1. 讓模型專注於文件與問題的關聯性
  2. 減少 LLMs 本身的干擾

2. 文件重排序(Document Reordering)


3. 動態壓縮比例(Dynamic Compression Ratio)


4. 子序列恢復(Subsequence Recovery)


實作與效果

Powered by Forestry.md