LongContext Large Language Models

LLMLingua

GitHub - microsoft/LLMLingua: [EMNLP'23, ACL'24].

基於 LLMLingua 的基礎,開發了一種問題感知的粗到細壓縮方法,目的是提高提示詞中關鍵信息的密度

缺點


LongLLAMA

焦點 Transformer (FOT)
提出了一種新的 Transformer 擴展技術,稱為「Focused Transformer (FOT)」,旨在解決長上下文處理中的分散問題(Distraction Issue),強化 (key, value) 空間結構,以允許模型有效處理長上下文。

模型應用 (LONGLLAMA)
利用 FOT 微調 OpenLLaMA 3B 和 7B 模型,生成 LONGLLAMA,這些模型可在上下文長度超過訓練階段的情況下進行推論,甚至達到 256k tokens。

優點:

缺點:


LongLoRA

GitHub - dvlab-research/LongLoRA: Code and documents of LongLoRA and LongAlpaca (ICLR 2024 Oral)

使用 LongLoRA,Llama2 7B 模型能在單台 8× A100 GPU 上將上下文延伸到 100k,Llama2 70B 模型延伸到 32k。


Effective Long-Context Scaling of Foundation Models

Effective Long-Context Scaling of Foundation Models - ACL Anthology

重點

位置編碼改進(Positional Encoding)
使用的 RoPE 編碼對長距離 tokens 的權重衰減較快,因此調整了 RoPE 的「基本頻率」參數,減少遠距離 tokens 的衰減影響。

數據混合(Data Mix)
新模型使用了經過調整的數據混合,增加長文本數據的比例,但實驗結果表明,數據質量比文本長度更為重要。

持續預訓練(Continual Pretraining)
基於 LLAMA 2 的檢查點進行額外的 4000 億 tokens 預訓練,提升模型處理長序列的能力


Long-Context Language Modeling with Parallel Context Encoding

Long-Context Language Modeling with Parallel Context Encoding - ACL Anthology

提出了一種名為 CEPE (Context Expansion with Parallel Encoding) 的框架,用於擴展大型語言模型(LLMs)的上下文窗口。

CEPE
在原有的 decoder-only 模型上增加了一個小型的雙向 encoder,並在每層 transformer block 中插入 cross-attention 模組,允許 decoder 利用來自 encoder 的編碼表示。

並行處理長上下文
將長文本拆分為多個 chunk,並由小型 encoder 並行處理,避免了 transformer 中注意力機制的二次方複雜度問題


Powered by Forestry.md