LLMs Assist NLP Researchers - Critique Paper (Meta-)Reviewing

How can LLMs potentially assist researchers in alleviating their heavy workload?

Paper 2406.16253
Dataset ReviewCritique

建立了包含人類與 LLM 生成的評審以及針對缺失片段標註的資料集,稱為 ReviewCritique


評估 LLMs 作為以下兩種角色的能力:

角色 主要職責 關注重點
評論者(Reviewer) 審查論文,提供詳細反饋 論文的質量和細節
元評論者(Meta-Reviewer) 審查評論者意見,統整最終決策 評論意見的質量和一致性

優缺點

優點

缺點


  1. decision

    • 表示論文的最終決策,例如 "accepted" 或 "rejected"。
    • 在此例中為 "rejected",表示論文被拒絕。
  2. title

    • 表示論文的標題。
  3. body_text

    • 包含論文的主要內容摘要。
    • 通常包含論文的背景、提出的問題、方法、實驗結果與結論摘要。
  4. review#1review#2review#3review#4

    • 每個 review# 表示一位審稿者的評審意見。
    • 包含各個審稿者對論文的具體評價與意見。
  5. review(在每個審稿中):

    • 這是審稿者的詳細評語,包含多個段落,通常會包括以下幾個部分:
      • segment_text:評審段落的文本內容。
      • topic_class_1topic_class_2:標示該段落的主題分類,表示這段話的類型或主題。
      • reliability:表示該段落的可信度評分,通常為 "Yes""No"
      • explanation:針對評語的進一步解釋(若有提供)。
      • error_type:表示該段落可能的問題或錯誤類型(若有指出)。
  6. score(在每個審稿中):

    • 審稿者對論文的評分,包含以下幾個指標:
      • Correctness:表示論文的正確性評分(1-5分制)。
      • Technical Novelty And Significance:表示技術創新性和重要性評分。
      • Empirical Novelty And Significance:表示實驗創新性和重要性評分。
      • Flag For Ethics Review:表示是否有倫理審查標記,例如涉及隱私或版權問題。
      • Details Of Ethics Concerns:若有倫理問題,這裡會詳細說明。
      • Recommendation:表示審稿者的建議(通常為 1-10 分制)。
      • Confidence:表示審稿者對其評審意見的信心程度。

此資料集的設計目的是記錄學術論文的評審過程,幫助研究者了解審稿者的評價細節。每篇審稿包含:

這樣的資料集可以用於分析學術評審的趨勢、評審標準,以及審稿者的評審一致性,或作為訓練 AI 評審系統的標註數據。


以下是表格的中文翻譯:

指標 人類 人類 人類 LLM LLM LLM
所有 已接受 已拒絕 所有 已接受 已拒絕
論文數量 (#Papers) 100 50 50 20 10 10
評論數量 (#Reviews) 380 195 185 60 30 30
含缺陷評論數量 272 132 140 60 30 30
含缺陷評論比例 (%) 71.57 67.69 75.67 100 100 100
評論片段數量 (#Segments) 11,376 6,027 5,349 1,611 812 799
含缺陷片段數量 713 317 396 225 144 81
含缺陷片段比例 (%) 6.27 5.26 7.40 13.97 17.73 10.14
解釋字數 (#ExplanationTokens) 14,773 6,957 7,816 3,877 2,584 1,293
Powered by Forestry.md