Auto Peer-Review

同行評審 (PeerReview) ，是出版商用來評估論文質量的重要工具，幫助決定這篇論文能否在期刊上發表。

隨著科學進展的加速，研究出版量顯著增加，這促使自動化及半自動化審查工具需求日益增長，以應對人力資源不足的挑戰。

儘管同行評審被廣泛應用並展現實用性，但其為一項高投入的活動，需依賴專業知識且容易受到偏見影響[Stelmakh et al., 2021]。

Dataset

PeerRead: A Dataset of Peer Reviews (PeerRead) - Collection, Insights and NLP Applications
NLPeer: NLPEER - A Unified Resource for the Computational Study of Peer Review
SubstanReview: Automatic Analysis of Substantiation in Scientific Peer Reviews
RR-MCQ: Is LLM a Reliable Reviewer? A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks
ReviewCritique: LLMs Assist NLP Researchers - Critique Paper (Meta-)Reviewing

Framework

模型生成不準確或無根據內容的原因可能有以下幾點：

缺乏領域知識（Lack of Domain Knowledge）：
- 模型未經過足夠的領域數據訓練，對專業概念和術語理解不充分，導致回應內容不符合專業標準。
訓練數據質量（Quality of Training Data）：
- 訓練數據包含錯誤資訊或噪聲，導致模型學習到錯誤知識，進而產生不準確的輸出。
偏向生成性回應（Tendency for Generative Responses）：
- 大型語言模型傾向於根據提示自動填補內容，即使沒有足夠的上下文資訊，也可能創造出看似合理但實際無根據的回應（幻覺現象）。
缺乏事實校驗機制（Lack of Fact-Checking Mechanism）：
- 語言模型缺少內建的校驗過程，無法即時核實輸出的內容是否符合已知的真實資訊。
缺乏上下文理解（Lack of Contextual Understanding）：模型無法充分理解問題的背景或需求，因此無法提供具體的、針對性的回答。

Evaluation

偏見問題

人類和自動審核員都表現出不同程度的偏見和偏差，而且系統產生的審核比人類審核員更有偏見。

自動審稿系統中的偏見分析：

母語與非母語作者的差異
- 人工評論
  - 母語者會在「清晰度 (Clarity)」方面獲得更高評分
- 自動生成的評論
  - 縮小了母語與非母語作者在「清晰度」上的差距
  - 對非母語作者的「原創性 (Originality)」評價更為嚴苛
匿名與非匿名文章的差異
- 非匿名文章（例如已發表於 arXiv 等非盲審平台的文章）在各方面均獲得較高評分

偏見量化方法：

使用面向分數 (Aspect Score) 計算不同群體之間的差異。
使用差異指數 (Disparity Difference) 比較系統與人工評論的偏見程度。

審稿特性？

好的自動審稿系統應具備以下特性：

決策性 (Decisiveness)
- 能夠對文章作出明確的接受或拒絕建議
全面性 (Comprehensiveness)
- 審稿應涵蓋多個面向（如清晰度、影響力等）
正確性 (Accuracy)
- 所有評價需基於事實，避免錯誤陳述
建設性 (Constructiveness)
- 提供具體意見幫助改進文章質量
善意性 (Kindness)
- 使用尊重和善意的語言

Review commonly involves both objective (e.g. “lack of details necessary to replicate the experimental protocol”) and subjective aspects (e.g. “lack of potential impact”). #cite

[2102.00176] Can We Automate Scientific Reviewing?