LLMs Assist NLP Researchers - Critique Paper (Meta-)Reviewing
How can LLMs potentially assist researchers in alleviating their heavy workload?
| Paper | 2406.16253 |
|---|---|
| Dataset | ReviewCritique |
建立了包含人類與 LLM 生成的評審以及針對缺失片段標註的資料集,稱為 ReviewCritique
評估 LLMs 作為以下兩種角色的能力:
- 評論者(Reviewer)
- 主要負責針對論文進行詳細審查,提供反饋意見
- 指出論文中的缺陷(如數據不足、實驗設計不佳、結果解釋不充分等)
- 給出具體的改進建議或補充意見,幫助作者提升論文質量
- 研究比較LLM生成的評論與人類評論在質量和可識別性上的差異
- 主要負責針對論文進行詳細審查,提供反饋意見
- 元評論者(Meta-Reviewer)
- 分析評論者提供的意見,確保反饋具有專業性、客觀性和建設性
- 如果某個評論過於籠統、不專業或存在偏見,元評論者需要指出並加以調整
- 對所有評論者的意見進行總結,給出一個綜合性的建議(如接受、修改或拒絕)
- 評估LLM識別評論中潛在問題(如缺陷或不專業段落)的能力
- 分析評論者提供的意見,確保反饋具有專業性、客觀性和建設性
| 角色 | 主要職責 | 關注重點 |
|---|---|---|
| 評論者(Reviewer) | 審查論文,提供詳細反饋 | 論文的質量和細節 |
| 元評論者(Meta-Reviewer) | 審查評論者意見,統整最終決策 | 評論意見的質量和一致性 |
優缺點
優點
- LLM 有潛力輔助科學同行評審
- 大型語言模型(LLM)作為評論者時,能夠生成一定質量的評論,特別是在簡單的評論任務上,效果接近人類評審者
- 可以提供初步的反饋和建議,幫助研究人員更快發現論文中的明顯缺陷
- 輔助工具應用場景
- 可以作為「輔助評論工具」,協助人類審稿人提供初步反饋和檢查明顯的錯誤
- 可能成為同行評審過程中的「初步過濾工具」,幫助加速審稿流程
缺點
- 缺乏專業領域知識
- 當面對特定學科領域的論文時,無法理解高度專業化的術語或實驗設計細節
- 元評論能力不足
- LLM生成的評論比人類評論更可能包含缺陷,且往往缺乏多樣性和建設性反饋
- 在識別低質量或不專業的評論方面能力有限,可能導致錯誤的元評論結論
- 建設性反饋欠缺
- 生成的評論通常較為籠統,缺乏具體的建設性建議,難以對論文進行深度的改進指導
- 局限性
- 涵蓋的論文和評論範圍主要集中在 NLP 領域,對其他學科的適用性仍有待驗證
-
decision:- 表示論文的最終決策,例如 "accepted" 或 "rejected"。
- 在此例中為
"rejected",表示論文被拒絕。
-
title:- 表示論文的標題。
-
body_text:- 包含論文的主要內容摘要。
- 通常包含論文的背景、提出的問題、方法、實驗結果與結論摘要。
-
review#1、review#2、review#3、review#4:- 每個
review#表示一位審稿者的評審意見。 - 包含各個審稿者對論文的具體評價與意見。
- 每個
-
review(在每個審稿中):- 這是審稿者的詳細評語,包含多個段落,通常會包括以下幾個部分:
segment_text:評審段落的文本內容。topic_class_1和topic_class_2:標示該段落的主題分類,表示這段話的類型或主題。reliability:表示該段落的可信度評分,通常為"Yes"或"No"。explanation:針對評語的進一步解釋(若有提供)。error_type:表示該段落可能的問題或錯誤類型(若有指出)。
- 這是審稿者的詳細評語,包含多個段落,通常會包括以下幾個部分:
-
score(在每個審稿中):- 審稿者對論文的評分,包含以下幾個指標:
Correctness:表示論文的正確性評分(1-5分制)。Technical Novelty And Significance:表示技術創新性和重要性評分。Empirical Novelty And Significance:表示實驗創新性和重要性評分。Flag For Ethics Review:表示是否有倫理審查標記,例如涉及隱私或版權問題。Details Of Ethics Concerns:若有倫理問題,這裡會詳細說明。Recommendation:表示審稿者的建議(通常為 1-10 分制)。Confidence:表示審稿者對其評審意見的信心程度。
- 審稿者對論文的評分,包含以下幾個指標:
此資料集的設計目的是記錄學術論文的評審過程,幫助研究者了解審稿者的評價細節。每篇審稿包含:
- 詳細的段落評語(
segment_text)。 - 主題分類標籤(
topic_class_1、topic_class_2)。 - 對論文的各種評分(
score部分)。
這樣的資料集可以用於分析學術評審的趨勢、評審標準,以及審稿者的評審一致性,或作為訓練 AI 評審系統的標註數據。
以下是表格的中文翻譯:
| 指標 | 人類 | 人類 | 人類 | LLM | LLM | LLM |
|---|---|---|---|---|---|---|
| 所有 | 已接受 | 已拒絕 | 所有 | 已接受 | 已拒絕 | |
| 論文數量 (#Papers) | 100 | 50 | 50 | 20 | 10 | 10 |
| 評論數量 (#Reviews) | 380 | 195 | 185 | 60 | 30 | 30 |
| 含缺陷評論數量 | 272 | 132 | 140 | 60 | 30 | 30 |
| 含缺陷評論比例 (%) | 71.57 | 67.69 | 75.67 | 100 | 100 | 100 |
| 評論片段數量 (#Segments) | 11,376 | 6,027 | 5,349 | 1,611 | 812 | 799 |
| 含缺陷片段數量 | 713 | 317 | 396 | 225 | 144 | 81 |
| 含缺陷片段比例 (%) | 6.27 | 5.26 | 7.40 | 13.97 | 17.73 | 10.14 |
| 解釋字數 (#ExplanationTokens) | 14,773 | 6,957 | 7,816 | 3,877 | 2,584 | 1,293 |