LLMs Assist NLP Researchers - Critique Paper (Meta-)Reviewing

How can LLMs potentially assist researchers in alleviating their heavy workload?

Paper	2406.16253
Dataset	ReviewCritique

建立了包含人類與 LLM 生成的評審以及針對缺失片段標註的資料集，稱為 ReviewCritique

評估 LLMs 作為以下兩種角色的能力：

評論者（Reviewer）
- 主要負責針對論文進行詳細審查，提供反饋意見
  - 指出論文中的缺陷（如數據不足、實驗設計不佳、結果解釋不充分等）
  - 給出具體的改進建議或補充意見，幫助作者提升論文質量
- 研究比較LLM生成的評論與人類評論在質量和可識別性上的差異
元評論者（Meta-Reviewer）
- 分析評論者提供的意見，確保反饋具有專業性、客觀性和建設性
  - 如果某個評論過於籠統、不專業或存在偏見，元評論者需要指出並加以調整
  - 對所有評論者的意見進行總結，給出一個綜合性的建議（如接受、修改或拒絕）
- 評估LLM識別評論中潛在問題（如缺陷或不專業段落）的能力

角色	主要職責	關注重點
評論者（Reviewer）	審查論文，提供詳細反饋	論文的質量和細節
元評論者（Meta-Reviewer）	審查評論者意見，統整最終決策	評論意見的質量和一致性

優缺點

優點

LLM 有潛力輔助科學同行評審
- 大型語言模型（LLM）作為評論者時，能夠生成一定質量的評論，特別是在簡單的評論任務上，效果接近人類評審者
- 可以提供初步的反饋和建議，幫助研究人員更快發現論文中的明顯缺陷
輔助工具應用場景
- 可以作為「輔助評論工具」，協助人類審稿人提供初步反饋和檢查明顯的錯誤
- 可能成為同行評審過程中的「初步過濾工具」，幫助加速審稿流程

缺點

缺乏專業領域知識
- 當面對特定學科領域的論文時，無法理解高度專業化的術語或實驗設計細節
元評論能力不足
- LLM生成的評論比人類評論更可能包含缺陷，且往往缺乏多樣性和建設性反饋
- 在識別低質量或不專業的評論方面能力有限，可能導致錯誤的元評論結論
建設性反饋欠缺
- 生成的評論通常較為籠統，缺乏具體的建設性建議，難以對論文進行深度的改進指導
局限性
- 涵蓋的論文和評論範圍主要集中在 NLP 領域，對其他學科的適用性仍有待驗證

decision：
- 表示論文的最終決策，例如 "accepted" 或 "rejected"。
- 在此例中為 "rejected"，表示論文被拒絕。
title：
- 表示論文的標題。
body_text：
- 包含論文的主要內容摘要。
- 通常包含論文的背景、提出的問題、方法、實驗結果與結論摘要。
review#1、review#2、review#3、review#4：
- 每個 review# 表示一位審稿者的評審意見。
- 包含各個審稿者對論文的具體評價與意見。
review（在每個審稿中）：
- 這是審稿者的詳細評語，包含多個段落，通常會包括以下幾個部分：
  - segment_text：評審段落的文本內容。
  - topic_class_1 和 topic_class_2：標示該段落的主題分類，表示這段話的類型或主題。
  - reliability：表示該段落的可信度評分，通常為 "Yes" 或 "No"。
  - explanation：針對評語的進一步解釋（若有提供）。
  - error_type：表示該段落可能的問題或錯誤類型（若有指出）。
score（在每個審稿中）：
- 審稿者對論文的評分，包含以下幾個指標：
  - Correctness：表示論文的正確性評分（1-5分制）。
  - Technical Novelty And Significance：表示技術創新性和重要性評分。
  - Empirical Novelty And Significance：表示實驗創新性和重要性評分。
  - Flag For Ethics Review：表示是否有倫理審查標記，例如涉及隱私或版權問題。
  - Details Of Ethics Concerns：若有倫理問題，這裡會詳細說明。
  - Recommendation：表示審稿者的建議（通常為 1-10 分制）。
  - Confidence：表示審稿者對其評審意見的信心程度。

此資料集的設計目的是記錄學術論文的評審過程，幫助研究者了解審稿者的評價細節。每篇審稿包含：

詳細的段落評語（segment_text）。
主題分類標籤（topic_class_1、topic_class_2）。
對論文的各種評分（score 部分）。

這樣的資料集可以用於分析學術評審的趨勢、評審標準，以及審稿者的評審一致性，或作為訓練 AI 評審系統的標註數據。

以下是表格的中文翻譯：

指標	人類	人類	人類	LLM	LLM	LLM
	所有	已接受	已拒絕	所有	已接受	已拒絕
論文數量 (#Papers)	100	50	50	20	10	10
評論數量 (#Reviews)	380	195	185	60	30	30
含缺陷評論數量	272	132	140	60	30	30
含缺陷評論比例 (%)	71.57	67.69	75.67	100	100	100
評論片段數量 (#Segments)	11,376	6,027	5,349	1,611	812	799
含缺陷片段數量	713	317	396	225	144	81
含缺陷片段比例 (%)	6.27	5.26	7.40	13.97	17.73	10.14
解釋字數 (#ExplanationTokens)	14,773	6,957	7,816	3,877	2,584	1,293