CHATEVAL - TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE
動機
目前的 LLM 評估方法 (Agent Evaluator) 無法良好地對齊(align)人類標註結果。 如果能模仿人類評估方式,是否能提升效果?
Role Specification(角色規範)
不同的角色設定,讓代理(agents)按照人物設定進行討論:
- Single-Agent:單個代理評估
- Multi-Agent (Simple Role):多個代理但角色設定相同
- Multi-Agent (Diverse Role) → ✅ 最佳方法
- 每個代理具備不同的角色(如批評者、新聞作者、心理學家等),提供多元視角,改善評估準確性。
Communication Strategy(溝通策略)
多代理的不同溝通方式:
-
One-by-One(逐輪發言) → ✅ 最佳方法
- 每個代理依序回應,根據前一位的發言調整自身輸出
- 保持上下文脈絡,避免資訊遺失,連貫的對話過程
- 確保每個代理基於前一個代理的意見進行推理,提高整體討論的深度與一致性
-
Simultaneous-Talk(同步討論)
- 所有代理同時發言,然後互相評論。
- 缺點:容易導致資訊衝突,影響評估穩定性。
-
Simultaneous-Talk-with-Summarizer(同步討論+摘要)
- 額外加入 總結者,幫助整理討論焦點,減少冗長對話。
- 有助於長文本處理,但可能影響個別代理的獨立判斷。
結論
- 多代理、多角色設定的評估方式,比單一代理更能對齊人類標註結果。
- One-by-One(逐輪發言)溝通策略效果最佳,能夠維持資訊連貫性並避免衝突。
- 透過模仿人類討論方式(不同角色、協商機制),LLM 評估能更接近人類標準。