Is LLM a Reliable Reviewer A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks
| type | url |
|---|---|
| Conference | ELRA and ICCL (2024) |
| Dataset | RR-MCQ |
目的:
分析了大型語言模型(LLM)在自動化學術審查任務中的表現
設計了多選題來評估模型在理解論文評論、回答問題、提供解釋等方面的能力,並且涵蓋了不同的研究領域和技術評估層面
Can LLM be a qualified and reliable automatic reviewer?
隨著 LLMs 在科研中普及,研究界關注其在審查中的應用潛力,但其可靠性有待評估
→ 探討LLMs(如GPT-4)是否能成為有效的論文審查工具
Relate Work
自動化審查生成 和 分類任務 的最新研究進展 (2024):
自動化審查生成(Review Generation)
核心概念:模型自動生成學術評論
數據集:
- A Dataset of Peer Reviews (PeerRead) - Collection, Insights and NLP Applications、ASAP、ReviewRobot、MOPRD、NLPEER
- 主要收集計算機科學領域的論文和其對應的審查,用於開發模型生成評論。
- 標註方法
- 針對生成文本難以直接評估的問題,採用多種標註方式,如句子類型(基於情感極性、評論的層面等)。
- 相關數據集包括COMPARE、ReAct、AMSR、PARE、Peer-Review-Analyze和AMPERE。
其他生成任務
綜合審查生成(Meta-review Generation)
- 多個同行評審的摘要生成,相關數據集如MreD。
修訂生成(Edit Generation)
- 基於評論內容生成修訂版本
- 數據集包括Revise and Resubmit、ArxivEdits和ARIES(D’Arcy et al., 2023),其中ARIES專注於GPT-4生成修訂的能力。
分類任務(Classification Task)
核心概念:這類任務通常有明確答案,使其在自動審查應用中更易於實現。
分類任務類型:
- 論文接受決策預測(Paper Decision Prediction)
- 預測論文是否會被接受。
- 方面分數預測(Aspect Score Prediction)
- 根據論文各方面的評分預測。
Dataset
RR-MCQ數據集(Review-Revision Multiple-Choice Questions)
zhouruiyang/RR-MCQ · Datasets at Hugging Face
專為評估大型語言模型(LLM)在審查任務中的表現而設計的,特別針對模型在技術細節、整體表現和質量等多個維度上的評估
該數據集基於 ICLR-2023 的審查與回覆論壇中的真實資料,包含了197道多選題,這些題目針對學術論文的技術細節、清晰度、論證邏輯等多方面,提供了模型審查能力的全面評估標準。這些問題通過詳細標註,使得評估能涵蓋模型在生成和判斷上的各種面向
RR-MCQ的設計目的是提供一個可以標準化和量化的框架,來分析LLM在不同審查場景中的準確性和一致性。
實驗方法
使用GPT-3.5和GPT-4模型來執行評分預測(aspect score prediction)和審查生成(review generation)任務
RR-MCQ數據集來檢視各種審查面向的多重選擇題,以更全面地分析LLM的審查能力。
- 評分預測任務
- 作者使用了ICLR-2017子集的PeerRead數據集來進行方面分數預測。
- 這些分數從1到5,涵蓋了文章的多個面向(例如推薦程度、內容充實度、創新性、清晰度等)。
- 審查生成任務
- LLM生成審查文本,並使用一組包含多選問題的RR-MCQ數據集進行評估,該數據集來源於ICLR-2023的審查回覆論壇,涵蓋技術細節、表達方式和文章質量等多個層面
LLM具備潛力:
- 大型語言模型(LLM)在自動論文審查中展現出潛力,能夠給出有意義的分數並對個別陳述做出決定。
實際應用挑戰:
- 完全正確的回答較少,約20%。
- 批判性不足,缺乏技術細節。
- 處理長篇內容時表現不佳。
缺點:
- 數據集規模:
- 由於設計高質量問題的成本較高,RR-MCQ資料集僅包含196個問題,可能限制了評估的全面性。
- 可靠性和穩定性
- 即使GPT-3.5和GPT-4在特定情境下表現出色,但在處理長篇論文、零樣本情境和需要深入批判的審查時,其表現仍然有限,無法穩定地提供高品質的回饋。
- 與人類審查的差異
- 模型生成的審查可能與人類審查意見有相當一致的重疊性,但在某些面向(例如創新性或影響力)上偏離人類標準。此偏差使得LLM在某些情境中無法有效模擬人類審查員的角色。
- 評估方法:
- 自動評估指標可能無法準確反映評論生成的真實質量,需謹慎使用。
多角度評估的需求:
研究中引入的RR-MCQ數據集允許從多個面向(如技術細節、表達方式、整體質量)進行全面評估,這強調了在LLM應用於自動化審查時,需考量不同評估標準來捕捉模型的優劣。
欄位
pdf_id
- 解釋:代表這篇論文的唯一識別碼,通常是內部使用的標識符。
paper_info
- 解釋:包含論文的基本信息,包括標題、關鍵詞、摘要、決策和簡短描述。
title:論文的標題。keywords:論文的關鍵詞列表,描述主要研究領域和技術。abstract:論文的摘要,概述了研究的主要內容和貢獻。decision:論文的評審結果,例如 "Accept: notable-top-5%" 表示這篇論文被接受,且排名在前 5%。tl_dr:TL;DR(too long; didn't read),是一段簡短的摘要,概述論文的主要貢獻。
QAs
- 解釋:包含一組與該論文相關的問答,通常由評審者提問並由作者回應,設計用來測試模型理解和回應能力。每個問答包含以下欄位:
qa_id:問答的唯一識別碼。argument:問答對話的完整文本,包括評審者的評論和作者的回應。question:根據評論提取的問題。option:問題的選項列表,通常是多選題。answer:正確的選項列表。aspect_content:問答涉及的內容領域,例如 "empirical" 表示實證結果。aspect_review:問答的評審層面,例如 "comparison" 表示比較分析。ability:問答測試的模型能力,例如 "explain" 表示測試模型的解釋能力。need_other_source:布爾值,表示回答問題是否需要額外的資料來源,true表示需要。
總結
RR-MCQ 資料集設計了多選題來評估模型在理解論文評論、回答問題、提供解釋等方面的能力,並且涵蓋了不同的研究領域和技術評估層面。這種結構有助於全面測試模型在自動審查任務中的表現。
| 項目 | 詳細內容 |
|---|---|
| 資料收集時間 | 2023 年初至 ICLR-2023 評審結束後 |
| 數據來源 | ICLR-2023 評審回應與論文文本資料 |
| 論文數量 | 14 篇 ICLR-2023 的論文 |
| 評論數量 | 55 篇評論,涵蓋多個不同評審者的回應 |
| 問答數量 | 196 個多選題(MCQ) |
| 問題類型 | 涵蓋技術細節、實證比較、方法討論等 |
| 使用範疇 | 測試大型語言模型(LLM)的論文審查能力 |