CHATEVAL - TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE

動機

目前的 LLM 評估方法 (Agent Evaluator) 無法良好地對齊(align)人類標註結果。 如果能模仿人類評估方式,是否能提升效果?

Multi-Agent System (MAS)


Role Specification(角色規範)

不同的角色設定,讓代理(agents)按照人物設定進行討論:


Communication Strategy(溝通策略)

多代理的不同溝通方式:

  1. One-by-One(逐輪發言) → ✅ 最佳方法

    • 每個代理依序回應,根據前一位的發言調整自身輸出
    • 保持上下文脈絡,避免資訊遺失,連貫的對話過程
    • 確保每個代理基於前一個代理的意見進行推理,提高整體討論的深度與一致性
  2. Simultaneous-Talk(同步討論)

    • 所有代理同時發言,然後互相評論。
    • 缺點:容易導致資訊衝突,影響評估穩定性。
  3. Simultaneous-Talk-with-Summarizer(同步討論+摘要)

    • 額外加入 總結者,幫助整理討論焦點,減少冗長對話。
    • 有助於長文本處理,但可能影響個別代理的獨立判斷。

結論

Powered by Forestry.md