DAST. Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens
雖然大型語言模型在長上下文任務表現很好,但處理長文本會帶來極高的計算與記憶體成本,因此「如何有效壓縮上下文」成為關鍵問題
現有語義向量(soft token)壓縮方法雖然能保留語意,但幾乎都採用:
- 固定數量
- 平均分配
但可能實際上關鍵資訊常只集中在少數區段
利用 Perplexity(局部重要性)+ Attention(全域重要性),讓模型動態地把更多 soft tokens 分配給資訊密集的區段。
流程
- 把長文件切成多個 chunk, 例如一篇文件切成 10 段(chunk₁ ~ chunk₁₀)
- 對每個 chunk 算「它重要不重要」
- Perplexity(困惑度) → 看「這段有沒有資訊量」
⇒ PPL 低 = 這段值得多保留 - Attention(注意力) → 看「模型實際在用哪一段」
attention 高 = 對最終理解有貢獻
- Perplexity(困惑度) → 看「這段有沒有資訊量」