Is LLM a Reliable Reviewer A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks

type	url
Conference	ELRA and ICCL (2024)
Dataset	RR-MCQ

目的：
分析了大型語言模型（LLM）在自動化學術審查任務中的表現
設計了多選題來評估模型在理解論文評論、回答問題、提供解釋等方面的能力，並且涵蓋了不同的研究領域和技術評估層面

Can LLM be a qualified and reliable automatic reviewer?

隨著 LLMs 在科研中普及，研究界關注其在審查中的應用潛力，但其可靠性有待評估
→ 探討LLMs（如GPT-4）是否能成為有效的論文審查工具

Relate Work

自動化審查生成 和 分類任務 的最新研究進展 (2024)：

核心概念：模型自動生成學術評論

數據集：

A Dataset of Peer Reviews (PeerRead) - Collection, Insights and NLP Applications、ASAP、ReviewRobot、MOPRD、NLPEER
- 主要收集計算機科學領域的論文和其對應的審查，用於開發模型生成評論。
標註方法
- 針對生成文本難以直接評估的問題，採用多種標註方式，如句子類型（基於情感極性、評論的層面等）。
- 相關數據集包括COMPARE、ReAct、AMSR、PARE、Peer-Review-Analyze和AMPERE。

綜合審查生成（Meta-review Generation）

修訂生成（Edit Generation）

基於評論內容生成修訂版本
數據集包括Revise and Resubmit、ArxivEdits和ARIES（D’Arcy et al., 2023），其中ARIES專注於GPT-4生成修訂的能力。

核心概念：這類任務通常有明確答案，使其在自動審查應用中更易於實現。

分類任務類型：

RR-MCQ數據集（Review-Revision Multiple-Choice Questions）
zhouruiyang/RR-MCQ · Datasets at Hugging Face

專為評估大型語言模型（LLM）在審查任務中的表現而設計的，特別針對模型在技術細節、整體表現和質量等多個維度上的評估

該數據集基於 ICLR-2023 的審查與回覆論壇中的真實資料，包含了197道多選題，這些題目針對學術論文的技術細節、清晰度、論證邏輯等多方面，提供了模型審查能力的全面評估標準。這些問題通過詳細標註，使得評估能涵蓋模型在生成和判斷上的各種面向

RR-MCQ的設計目的是提供一個可以標準化和量化的框架，來分析LLM在不同審查場景中的準確性和一致性。

使用GPT-3.5和GPT-4模型來執行評分預測（aspect score prediction）和審查生成（review generation）任務

RR-MCQ數據集來檢視各種審查面向的多重選擇題，以更全面地分析LLM的審查能力。

評分預測任務
- 作者使用了ICLR-2017子集的PeerRead數據集來進行方面分數預測。
- 這些分數從1到5，涵蓋了文章的多個面向（例如推薦程度、內容充實度、創新性、清晰度等）。
審查生成任務
- LLM生成審查文本，並使用一組包含多選問題的RR-MCQ數據集進行評估，該數據集來源於ICLR-2023的審查回覆論壇，涵蓋技術細節、表達方式和文章質量等多個層面

LLM具備潛力：

實際應用挑戰：

缺點：

數據集規模：
- 由於設計高質量問題的成本較高，RR-MCQ資料集僅包含196個問題，可能限制了評估的全面性。
可靠性和穩定性
- 即使GPT-3.5和GPT-4在特定情境下表現出色，但在處理長篇論文、零樣本情境和需要深入批判的審查時，其表現仍然有限，無法穩定地提供高品質的回饋。
與人類審查的差異
- 模型生成的審查可能與人類審查意見有相當一致的重疊性，但在某些面向（例如創新性或影響力）上偏離人類標準。此偏差使得LLM在某些情境中無法有效模擬人類審查員的角色。
評估方法：
- 自動評估指標可能無法準確反映評論生成的真實質量，需謹慎使用。

多角度評估的需求：
研究中引入的RR-MCQ數據集允許從多個面向（如技術細節、表達方式、整體質量）進行全面評估，這強調了在LLM應用於自動化審查時，需考量不同評估標準來捕捉模型的優劣。

pdf_id

paper_info

QAs

總結
RR-MCQ 資料集設計了多選題來評估模型在理解論文評論、回答問題、提供解釋等方面的能力，並且涵蓋了不同的研究領域和技術評估層面。這種結構有助於全面測試模型在自動審查任務中的表現。