Is LLM a Reliable Reviewer A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks

type url
Conference ELRA and ICCL (2024)
Dataset RR-MCQ

目的:
分析了大型語言模型(LLM)在自動化學術審查任務中的表現
設計了多選題來評估模型在理解論文評論、回答問題、提供解釋等方面的能力,並且涵蓋了不同的研究領域和技術評估層面

Can LLM be a qualified and reliable automatic reviewer?


隨著 LLMs 在科研中普及,研究界關注其在審查中的應用潛力,但其可靠性有待評估
→ 探討LLMs(如GPT-4)是否能成為有效的論文審查工具


Relate Work

自動化審查生成分類任務 的最新研究進展 (2024):

自動化審查生成(Review Generation)

核心概念:模型自動生成學術評論

數據集

其他生成任務

綜合審查生成(Meta-review Generation)

修訂生成(Edit Generation)

分類任務(Classification Task)

核心概念:這類任務通常有明確答案,使其在自動審查應用中更易於實現。

分類任務類型


Dataset

RR-MCQ數據集(Review-Revision Multiple-Choice Questions)
zhouruiyang/RR-MCQ · Datasets at Hugging Face

專為評估大型語言模型(LLM)在審查任務中的表現而設計的,特別針對模型在技術細節、整體表現和質量等多個維度上的評估

該數據集基於 ICLR-2023 的審查與回覆論壇中的真實資料,包含了197道多選題,這些題目針對學術論文的技術細節、清晰度、論證邏輯等多方面,提供了模型審查能力的全面評估標準。這些問題通過詳細標註,使得評估能涵蓋模型在生成和判斷上的各種面向​

RR-MCQ的設計目的是提供一個可以標準化和量化的框架,來分析LLM在不同審查場景中的準確性和一致性。


實驗方法

使用GPT-3.5和GPT-4模型來執行評分預測(aspect score prediction)和審查生成(review generation)任務

RR-MCQ數據集來檢視各種審查面向的多重選擇題,以更全面地分析LLM的審查能力。


LLM具備潛力:

實際應用挑戰:

缺點:

多角度評估的需求:
研究中引入的RR-MCQ數據集允許從多個面向(如技術細節、表達方式、整體質量)進行全面評估,這強調了在LLM應用於自動化審查時,需考量不同評估標準來捕捉模型的優劣。


欄位

pdf_id

paper_info

QAs

總結
RR-MCQ 資料集設計了多選題來評估模型在理解論文評論、回答問題、提供解釋等方面的能力,並且涵蓋了不同的研究領域和技術評估層面。這種結構有助於全面測試模型在自動審查任務中的表現。


項目 詳細內容
資料收集時間 2023 年初至 ICLR-2023 評審結束後
數據來源 ICLR-2023 評審回應與論文文本資料
論文數量 14 篇 ICLR-2023 的論文
評論數量 55 篇評論,涵蓋多個不同評審者的回應
問答數量 196 個多選題(MCQ)
問題類型 涵蓋技術細節、實證比較、方法討論等
使用範疇 測試大型語言模型(LLM)的論文審查能力
Powered by Forestry.md