AgentReview🔍 - Exploring Academic Peer Review with LLM Agents

AgentReview🔍: Exploring Academic Peer Review with LLM Agents
Accepted at EMNLP 2024 main track (Oral)


Overview

同行評審 (PeerReview) 是學術出版的基石,但面臨者 Reviewer 偏見 (Bias) 的問題,不一致的評估可能讓人對審查機制失望,尤其當現今學術提交數量的增加,可能會影響評估的公平與完整性。

⇒ 過去的評審聚焦於評論的統計分析,難以捕捉 Peer Review 的哪些複雜因素糾纏的關係,例如 Reviewer 的專業知識、動機與個人偏見,使得難以獨立的評估。

Peer review faces challenges such as reviewer biae

To address these issues, traditional studies in peer review often focus on statistical analyses of past reviews, which struggle to fully capture the multivariate nature of peer review

Agent Review 目的實際模擬 Peer Review 的過程,分析多個可受控的變量
AgentReview is an open and flexible framework designed to realistically simulate the peer review process.png.png


Peer Review Pipeline

這個模擬的步驟有結構化的五個步驟:

  1. Reviewer Assessment (審稿人初始評估)
    • 每個 manuscript 都由三個獨立 Reviewers 評估
    • 根據論文創新、貢獻、方法等方面進行評估,提供意見
  2. Author-Reviewer Discussion (作者的回應)
    • 作者提供反駁意見、回應審稿人的批評與疑問
    • 允許作者澄清論文內容、額外補充證據、用以說服審稿人
  3. Reviewer-AC Discussion (重新審視)
    • AC 會負責促進審稿人之間的討論,鼓勵重新思考初始評估
    • 目的是為了讓審查結果更加一致,確保公平公正
  4. Meta-Review Compilation (元評審)
    • AC 負責彙整所有討論內容,撰寫元評審(meta-review)
    • 總結論文的優點、缺點、審稿人評價以及討論結果
  5. Paper Decision (最終決策)
    • 做出最終決定:接受(Accept)或拒絕(Reject)
    • 考量審稿人意見、作者的反駁、兩者的討論、meta-review 的內容

The Pipeline for Agent Review.
PeerReview Pipeline.png


Multiple Agent to Simulate

該框架模擬了 Reviewers 、Authors、Area Chairs (ACs) 的 LLM Agents,觀察不同配置下導致的不同結果。

Reviewers

高承諾、高知識會提供詳細、專業且有建設性的評審意見;
反之可能會提供無關或不公平的評論。

Area Chairs (ACs)

主要負責最終決策,行為可分為三類


Background Environment

系統性研究影響 Peer Review 的因素有三大挑戰:

目前同儕評審可能面臨的問題:

同儕評審遇到的偏見問題

Despite its importance, peer reviews often face several challenges, such as biases (Stelmakh et al., 2021), variable review quality (Stelmakh et al., 2021), unclear reviewer motives (Zhang et al., 2022a), and imperfect review mechanism (Fox et al., 2023), exacerbated by the ever-growing number of submissions.

!同儕評審的挑戰分類.png


Key Finding

有哪些關鍵因素可能會影響決策的心理狀況,影響評審的公正性

Social Influence (社會影響) - Turner, 1991

審稿人在 Rebuttal Phase(反駁階段) 經常會調整評分,使審稿人之間的意見更加一致,這些現象可能來自 Conformity Pressure (從眾壓力),使人們傾向於服從多數意見。

Conformity Effect (從眾效應) 可能會 削弱多元評審觀點,使論文決策變得過於同質化,影響公平性,個體差異減少。


Altruism Fatigue and Peer Effects (利他主義疲勞與同儕效應) - Angrist, 2014

若在評審組中有 1 位 Under-Committed (缺乏承諾),則整個評審承諾都將下降,可能來自 Altruism Fatigue (利他主義疲勞),審稿人可能因為反覆付出而降低審查品質,除此之外 Peer Effects (同儕效應) 也可能會因為其他評審者較爲慵懶,則受為影響變得更加隨意。

⇒ 可能會降低 Review 品質,特別是當多人受到影響時


Groupthink and Echo Chamber Effects (群體迷思與回音室效應) - Janis, 2008; Cinelli et al., 2021

當評審者之間進行討論時,Biased Reviewers (有偏見的審稿人) 可能會強化彼此的負面觀點,導致偏見進一步加深,形成 Echo Chamber (回音室效應),並且影響到 Unbiased Reviewers (無偏見的審稿人) 的決策。

Spillover Effect (外溢效應) 可能會導致偏見擴散,最終降低評分標準,影響論文的公正性與多樣性。


Authority Bias and Halo Effects (權威偏見與光環效應) - Nisbett and Wilson, 1977

當審稿人知道論文的 Author Identity (作者身份) 時,來自知名機構或學者的論文更容易被認為是高品質的,這是因為 Authority Bias (權威偏見) 使人們更信任來自權威的資訊,而 Halo Effect (光環效應) 使某些正面印象(如作者名氣)影響了整體評價。

⇒ 當 10% 的論文被公開作者身份時,最終決策可能會發生變動,這可能導致知名學者獲得不成比例的優勢,而低知名度的作者則面臨不公平待遇。


Anchoring Bias (錨定偏誤) - Nourani et al., 2021

在評審過程中,審稿人往往會過度依賴初步印象,即便作者在 Rebuttal Phase (反駁階段) 提供了有力證據,審稿人仍可能因為 Anchoring Bias (錨定偏誤) 而維持原本的評價。


Reference

BibTeX

@inproceedings{jin2024agentreview,
  title={AgentReview: Exploring Peer Review Dynamics with LLM Agents},
  author={Jin, Yiqiao and Zhao, Qinlin and Wang, Yiyang and Chen, Hao and Zhu, Kaijie and Xiao, Yijia and Wang, Jindong},
  booktitle={EMNLP},
  year={2024}
}

@inproceedings{jin-etal-2024-agentreview,
  title = "{A}gent{R}eview: Exploring Peer Review Dynamics with {LLM} Agents",
  author = "Jin, Yiqiao  and
    Zhao, Qinlin  and
    Wang, Yiyang  and
    Chen, Hao  and
    Zhu, Kaijie  and
    Xiao, Yijia  and
    Wang, Jindong",
  editor = "Al-Onaizan, Yaser  and
    Bansal, Mohit  and
    Chen, Yun-Nung",
  booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing",
  month = nov,
  year = "2024",
  address = "Miami, Florida, USA",
  publisher = "Association for Computational Linguistics",
  url = "https://aclanthology.org/2024.emnlp-main.70",
  pages = "1208--1226",
}

Powered by Forestry.md