LONGAGENT - Scaling Language Models to 128k Context through Multi-Agent Collaboration

ACL 2020
Resource limitations when processing very long texts

再處理過長的文本時可能出現「中途迷失」(容易忽略中間資訊)
目的是將文本拓展到 128K,並在長處理超越其他模型

「Leader」

  1. 理解使用者問題
  2. 負責拆解問題為子任務
  3. 指派 「Members」 任務,指導 Members 從文檔中提取資訊
  4. 統整資訊做出最終回答

「Members」

LongAgent - Framework.png

優點:


Introduction

動機:
延伸 Positional EncodingSliding Window Attention, SWA 都有侷限

目的:
透過多代理協作機制,提升處理長文本的能

方法:

  1. 選擇成員模型(根據任務需求,選擇對應專家模型)
  2. 協作推理(Leader 拆問題,Members 分別查找資訊)
    • Leader 根據過往對話狀態決定是要繼續詢問、解答、還是處理衝突
  3. 解決衝突(處理回答矛盾,避免 hallucination)
    • 若成員回覆互相矛盾,
      Leader 會讓這些成員「分享 chunk」後重新回答
  4. 推導最終答案

An Overview of the LongAgent..png

將文本 d 個拆成 m 個 Chunk,而每個 Chunk 長度小於語言模型的 Context Window 並一對一分配給 m 個 Member Agents.
LongAgent-Workflow.png


有趣的部分:

實驗: Hallucination Analysis

Powered by Forestry.md