DAST. Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens

雖然大型語言模型在長上下文任務表現很好，但處理長文本會帶來極高的計算與記憶體成本，因此「如何有效壓縮上下文」成為關鍵問題

現有語義向量（soft token）壓縮方法雖然能保留語意，但幾乎都採用：

但可能實際上關鍵資訊常只集中在少數區段
利用 Perplexity（局部重要性）＋ Attention（全域重要性），讓模型動態地把更多 soft tokens 分配給資訊密集的區段。

流程

把長文件切成多個 chunk, 例如一篇文件切成 10 段（chunk₁ ~ chunk₁₀）
對每個 chunk 算「它重要不重要」
1. Perplexity(困惑度) → 看「這段有沒有資訊量」
  ⇒ PPL 低 = 這段值得多保留
2. Attention(注意力) → 看「模型實際在用哪一段」
  attention 高 = 對最終理解有貢獻