Auto Peer-Review
同行評審 (PeerReview) ,是出版商用來評估論文質量的重要工具,幫助決定這篇論文能否在期刊上發表。
隨著科學進展的加速,研究出版量顯著增加,這促使自動化及半自動化審查工具需求日益增長,以應對人力資源不足的挑戰。
儘管同行評審被廣泛應用並展現實用性,但其為一項高投入的活動,需依賴專業知識且容易受到偏見影響[Stelmakh et al., 2021]。
Dataset
- PeerRead: A Dataset of Peer Reviews (PeerRead) - Collection, Insights and NLP Applications
- NLPeer: NLPEER - A Unified Resource for the Computational Study of Peer Review
- SubstanReview: Automatic Analysis of Substantiation in Scientific Peer Reviews
- RR-MCQ: Is LLM a Reliable Reviewer? A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks
- ReviewCritique: LLMs Assist NLP Researchers - Critique Paper (Meta-)Reviewing
Framework
- SEA: Automated Peer Reviewing in Paper SEA-Standardization, Evaluation, and Analysis
- Reviewer2: REVIEWER2 - Optimizing Review Generation Through Prompt Generation
模型生成不準確或無根據內容的原因可能有以下幾點:
- 缺乏領域知識(Lack of Domain Knowledge):
- 模型未經過足夠的領域數據訓練,對專業概念和術語理解不充分,導致回應內容不符合專業標準。
- 訓練數據質量(Quality of Training Data):
- 訓練數據包含錯誤資訊或噪聲,導致模型學習到錯誤知識,進而產生不準確的輸出。
- 偏向生成性回應(Tendency for Generative Responses):
- 大型語言模型傾向於根據提示自動填補內容,即使沒有足夠的上下文資訊,也可能創造出看似合理但實際無根據的回應(幻覺現象)。
- 缺乏事實校驗機制(Lack of Fact-Checking Mechanism):
- 語言模型缺少內建的校驗過程,無法即時核實輸出的內容是否符合已知的真實資訊。
- 缺乏上下文理解(Lack of Contextual Understanding):模型無法充分理解問題的背景或需求,因此無法提供具體的、針對性的回答。
Evaluation
偏見問題
人類和自動審核員都表現出不同程度的偏見和偏差 ,而且系統產生的審核比人類審核員更有偏見。
自動審稿系統中的偏見分析:
- 母語與非母語作者的差異
- 人工評論
- 母語者會在「清晰度 (Clarity)」方面獲得更高評分
- 自動生成的評論
- 縮小了母語與非母語作者在「清晰度」上的差距
- 對非母語作者的「原創性 (Originality)」評價更為嚴苛
- 人工評論
- 匿名與非匿名文章的差異
- 非匿名文章(例如已發表於 arXiv 等非盲審平台的文章)在各方面均獲得較高評分
偏見量化方法:
- 使用面向分數 (Aspect Score) 計算不同群體之間的差異。
- 使用差異指數 (Disparity Difference) 比較系統與人工評論的偏見程度。
審稿特性?
好的自動審稿系統應具備以下特性:
- 決策性 (Decisiveness)
- 能夠對文章作出明確的接受或拒絕建議
- 全面性 (Comprehensiveness)
- 審稿應涵蓋多個面向(如清晰度、影響力等)
- 正確性 (Accuracy)
- 所有評價需基於事實,避免錯誤陳述
- 建設性 (Constructiveness)
- 提供具體意見幫助改進文章質量
- 善意性 (Kindness)
- 使用尊重和善意的語言
Review commonly involves both objective (e.g. “lack of details necessary to replicate the experimental protocol”) and subjective aspects (e.g. “lack of potential impact”). #cite