AgentReview🔍 - Exploring Academic Peer Review with LLM Agents

AgentReview🔍: Exploring Academic Peer Review with LLM Agents
Accepted at EMNLP 2024 main track (Oral)

Overview

同行評審 (PeerReview) 是學術出版的基石，但面臨者 Reviewer 偏見 (Bias) 的問題，不一致的評估可能讓人對審查機制失望，尤其當現今學術提交數量的增加，可能會影響評估的公平與完整性。

⇒ 過去的評審聚焦於評論的統計分析，難以捕捉 Peer Review 的哪些複雜因素糾纏的關係，例如 Reviewer 的專業知識、動機與個人偏見，使得難以獨立的評估。

Peer review faces challenges such as reviewer biae

To address these issues, traditional studies in peer review often focus on statistical analyses of past reviews, which struggle to fully capture the multivariate nature of peer review

Agent Review 目的實際模擬 Peer Review 的過程，分析多個可受控的變量
AgentReview is an open and flexible framework designed to realistically simulate the peer review process.png.png

Peer Review Pipeline

這個模擬的步驟有結構化的五個步驟：

Reviewer Assessment (審稿人初始評估)
- 每個 manuscript 都由三個獨立 Reviewers 評估
- 根據論文創新、貢獻、方法等方面進行評估，提供意見
Author-Reviewer Discussion (作者的回應)
- 作者提供反駁意見、回應審稿人的批評與疑問
- 允許作者澄清論文內容、額外補充證據、用以說服審稿人
Reviewer-AC Discussion (重新審視)
- AC 會負責促進審稿人之間的討論，鼓勵重新思考初始評估
- 目的是為了讓審查結果更加一致，確保公平公正
Meta-Review Compilation (元評審)
- AC 負責彙整所有討論內容，撰寫元評審（meta-review）
- 總結論文的優點、缺點、審稿人評價以及討論結果
Paper Decision (最終決策)
- 做出最終決定：接受（Accept）或拒絕（Reject）
- 考量審稿人意見、作者的反駁、兩者的討論、meta-review 的內容

The Pipeline for Agent Review.
PeerReview Pipeline.png

Multiple Agent to Simulate

該框架模擬了 Reviewers 、Authors、Area Chairs (ACs) 的 LLM Agents，觀察不同配置下導致的不同結果。

Reviewers

高承諾、高知識會提供詳細、專業且有建設性的評審意見；
反之可能會提供無關或不公平的評論。

Commitment (承諾度)
- 衡量審稿人的奉獻精神與責任感
- Responsible(負責任) vs. Irresponsible(不負責任) Reviewers
Intention (意圖)
- 衡量審稿人的動機，是否真心想幫助作者改進論文
- Benign(良性) vs. Malicious(惡意) Reviewers
Knowledgeability (知識性)
- 衡量審稿人對該論文領域的專業知識水平
- Knowledgeable(知識淵博) vs. Unknowledgeable(無知) Reviewers

Area Chairs (ACs)

主要負責最終決策，行為可分為三類

Authoritarian (專制型)
- 主要依靠自己的判斷評估、而不是其他人的審稿意見
- 可能導致決策過於主觀、與多數意見相異
Conformist (從眾型)
- 很大程度依賴其他審稿人的評估，減少自己的影響力
- 可能導致決策缺乏獨立性，尤其當審稿意見有偏見時
Inclusive (包容型)
- 總和所有可用資訊：審稿人意見、作者的反駁、審稿人之間的討論
- 相較公平

Background Environment

系統性研究影響 Peer Review 的因素有三大挑戰：

多變數性（Multivariate Nature）
- 在評審過程中受到多種因素的影響（審查機制）
- 無法輕易分離影響評審結果的單一因素
潛在變數（Latent Variables）
- 某些關鍵因素難以測量，但是對評審過程影響重大（個人）
- 無法準確預測評審決策的因素
隱私問題（Privacy Concerns）
- 審查者或是作者的高敏感度數據影響
- 審稿人身份和評審數據的敏感性限制了公開研究的可能性

目前同儕評審可能面臨的問題：

偏見（Biases，Stelmakh et al., 2021）
指 Reviewer 因個人偏見影響評審結果，而非完全基於論文的學術品質
- 地區偏見（Geographical bias）
- 知名度偏見（Halo effect/Authority bias）
- 領域偏見（Topic bias）
評審質量不穩定（Variable review quality，Stelmakh et al., 2021）
同一篇論文可能會收到評審質量不均的意見，導致決策的隨機性增強
- 評審標準不一致
- 審稿意見過於簡單或隨意
- 評審嚴格程度差異
審稿人動機不明（Unclear reviewer motives，Zhang et al., 2022a）
指審稿人的評審動機不透明，可能影響他們的決策
- 利他動機（Altruistic motivation）
- 競爭動機（Competitive motivation）
- 時間壓力（Time pressure）
不完善的審查機制（Imperfect review mechanism，Fox et al., 2023）
指目前的同行評審機制仍然存在缺陷，影響評審的公平性和有效性
- 論文指派機制（Paper assignment）
  ⇒ 論文可能被指派給不熟悉該領域的審稿人，影響評審質量
- 缺乏評審者問責制（Lack of accountability）
  ⇒ 匿名審稿可能導致審稿人不重視影響審稿品質
- 作者回應的影響力有限（Limited impact of rebuttals）
  ⇒ 作者的反駁意見有時對評審決策影響甚微

同儕評審遇到的偏見問題

Despite its importance, peer reviews often face several challenges, such as biases (Stelmakh et al., 2021), variable review quality (Stelmakh et al., 2021), unclear reviewer motives (Zhang et al., 2022a), and imperfect review mechanism (Fox et al., 2023), exacerbated by the ever-growing number of submissions.

!同儕評審的挑戰分類.png

Key Finding

有哪些關鍵因素可能會影響決策的心理狀況，影響評審的公正性

審稿人在 Rebuttal Phase(反駁階段) 經常會調整評分，使審稿人之間的意見更加一致，這些現象可能來自 Conformity Pressure (從眾壓力)，使人們傾向於服從多數意見。

⇒ Conformity Effect (從眾效應) 可能會 削弱多元評審觀點，使論文決策變得過於同質化，影響公平性，個體差異減少。

Altruism Fatigue and Peer Effects (利他主義疲勞與同儕效應) － Angrist, 2014

若在評審組中有 1 位 Under-Committed (缺乏承諾)，則整個評審承諾都將下降，可能來自 Altruism Fatigue (利他主義疲勞)，審稿人可能因為反覆付出而降低審查品質，除此之外 Peer Effects (同儕效應) 也可能會因為其他評審者較爲慵懶，則受為影響變得更加隨意。

⇒ 可能會降低 Review 品質，特別是當多人受到影響時

Groupthink and Echo Chamber Effects (群體迷思與回音室效應) － Janis, 2008; Cinelli et al., 2021

當評審者之間進行討論時，Biased Reviewers (有偏見的審稿人) 可能會強化彼此的負面觀點，導致偏見進一步加深，形成 Echo Chamber (回音室效應)，並且影響到 Unbiased Reviewers (無偏見的審稿人) 的決策。

⇒ Spillover Effect (外溢效應) 可能會導致偏見擴散，最終降低評分標準，影響論文的公正性與多樣性。

Authority Bias and Halo Effects (權威偏見與光環效應) － Nisbett and Wilson, 1977

當審稿人知道論文的 Author Identity (作者身份) 時，來自知名機構或學者的論文更容易被認為是高品質的，這是因為 Authority Bias (權威偏見) 使人們更信任來自權威的資訊，而 Halo Effect (光環效應) 使某些正面印象（如作者名氣）影響了整體評價。

⇒ 當 10% 的論文被公開作者身份時，最終決策可能會發生變動，這可能導致知名學者獲得不成比例的優勢，而低知名度的作者則面臨不公平待遇。

Anchoring Bias (錨定偏誤) － Nourani et al., 2021

在評審過程中，審稿人往往會過度依賴初步印象，即便作者在 Rebuttal Phase (反駁階段) 提供了有力證據，審稿人仍可能因為 Anchoring Bias (錨定偏誤) 而維持原本的評價。

Reference

BibTeX

@inproceedings{jin2024agentreview,
  title={AgentReview: Exploring Peer Review Dynamics with LLM Agents},
  author={Jin, Yiqiao and Zhao, Qinlin and Wang, Yiyang and Chen, Hao and Zhu, Kaijie and Xiao, Yijia and Wang, Jindong},
  booktitle={EMNLP},
  year={2024}
}

@inproceedings{jin-etal-2024-agentreview,
  title = "{A}gent{R}eview: Exploring Peer Review Dynamics with {LLM} Agents",
  author = "Jin, Yiqiao  and
    Zhao, Qinlin  and
    Wang, Yiyang  and
    Chen, Hao  and
    Zhu, Kaijie  and
    Xiao, Yijia  and
    Wang, Jindong",
  editor = "Al-Onaizan, Yaser  and
    Bansal, Mohit  and
    Chen, Yun-Nung",
  booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing",
  month = nov,
  year = "2024",
  address = "Miami, Florida, USA",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2024.emnlp-main.70",
  pages = "1208--1226",
}