DAST. Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens

雖然大型語言模型在長上下文任務表現很好,但處理長文本會帶來極高的計算與記憶體成本,因此「如何有效壓縮上下文」成為關鍵問題

現有語義向量(soft token)壓縮方法雖然能保留語意,但幾乎都採用:

但可能實際上關鍵資訊常只集中在少數區段
利用 Perplexity(局部重要性)+ Attention(全域重要性),讓模型動態地把更多 soft tokens 分配給資訊密集的區段。


流程

  1. 把長文件切成多個 chunk, 例如一篇文件切成 10 段(chunk₁ ~ chunk₁₀)
  2. 對每個 chunk 算「它重要不重要」
    1. Perplexity(困惑度) → 看「這段有沒有資訊量」
      ⇒ PPL 低 = 這段值得多保留
    2. Attention(注意力) → 看「模型實際在用哪一段」
      attention 高 = 對最終理解有貢獻
Powered by Forestry.md