CHATEVAL - TOWARDS BETTER LLM-BASED EVALUATORS THROUGH MULTI-AGENT DEBATE

動機

目前的 LLM 評估方法 (Agent Evaluator) 無法良好地對齊（align）人類標註結果。如果能模仿人類評估方式，是否能提升效果？

Multi-Agent System (MAS)

Role Specification（角色規範）

不同的角色設定，讓代理（agents）按照人物設定進行討論：

Single-Agent：單個代理評估
Multi-Agent (Simple Role)：多個代理但角色設定相同
Multi-Agent (Diverse Role) → ✅ 最佳方法
- 每個代理具備不同的角色（如批評者、新聞作者、心理學家等），提供多元視角，改善評估準確性。

Communication Strategy（溝通策略）

多代理的不同溝通方式：

One-by-One（逐輪發言） → ✅ 最佳方法
- 每個代理依序回應，根據前一位的發言調整自身輸出
- 保持上下文脈絡，避免資訊遺失，連貫的對話過程
- 確保每個代理基於前一個代理的意見進行推理，提高整體討論的深度與一致性
Simultaneous-Talk（同步討論）
- 所有代理同時發言，然後互相評論。
- 缺點：容易導致資訊衝突，影響評估穩定性。
Simultaneous-Talk-with-Summarizer（同步討論+摘要）
- 額外加入 總結者，幫助整理討論焦點，減少冗長對話。
- 有助於長文本處理，但可能影響個別代理的獨立判斷。

結論

多代理、多角色設定的評估方式，比單一代理更能對齊人類標註結果。
One-by-One（逐輪發言）溝通策略效果最佳，能夠維持資訊連貫性並避免衝突。
透過模仿人類討論方式（不同角色、協商機制），LLM 評估能更接近人類標準。

Powered by Forestry.md