Automated Peer Reviewing in Paper SEA-Standardization, Evaluation, and Analysis

type url
Paper 2407.12857
HomePage Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis
Code GitHub - ecnu-sea/SEA
Model ECNU-SEA/SEA-S · Hugging Face
Conference EMNLP2024

Abstract

目前的自動化審查方法大多依賴 LLMs ,但生成的內容較為泛泛或不完整,所以他們介紹了 SEA 框架,這之中包含三個模組:


Introduction

研究出版物的數量大幅增加,但傳統的審查機制帶來挑戰:

→ 需要自動化科學審查機制,但現有方法的生成內容往往過於通用,缺乏深度和一致性,無法提供有價值的審查意見

Quote

Traditional language models typically struggle to handle such lengthy texts, let alone provide valuable review insights (Cohan et al., 2020; Wang et al., 2020). #cite

目前的自動化審查機制中, LLMs 處理長文本的進步帶來了可能性,並在許多任務中取得不錯的表現,但仍有許多問題:

為了解決上述問題,提出新的自動化論文審查架構 SEA (Standardization, Evaluation, and Analysis):

SEA 架構圖(三個模組).png


Related Work

LLMs 在長文本中取得實質性的成長
support long contexts processing by modifying the attention mechanism:

LLMs 處理 long contexts 的能力:


SEA

Standardization, Evaluation and Analysis

SEA-S: Standardization

在自動化科學審查機制中需要高品質的標注數據集進行 Supervised Fine-tuning (SFT) ,然而不同的審查者意見通常基於自身的專業領域,格式和標準也不同,導致不一致性。

解決方法 → 將多個審查意見整合成統一格式,消除重複和錯誤,並專注於論文的主要優點和缺點

訓練時選擇的模型比較 Mistral-7B、GPT-3.5 和 GPT-4:

訓練

對於每個論文(pi) ,輸入所有評論 {[ri1origin,ri2origin,...,rimorigin]}i=1n 與提示詞 insts 丟入 GPT 後獲得 riGPT4

透過 SEA-S 輸出的評論為 {riSEAS}i=1N


SEA-E: Evaluation

因為爬取的格式是 PDF format ,所以透過 Nougat 工具解析成 LaTeX Code ,避免文本編碼錯誤,使模型更深入理解論文內容 → pi^

Nougat

Nougat是一个强大的OCR工具,基於 Visual Transformer,專門用於學術文檔解析,尤其能將公式解析成 LaTeX 代碼

考慮到論文屬於長文本資料,選擇 Mistral-7B 作為主要模型,該模型能處理 16K tokens 的長文本,在長上下文基準 RULER 測試中表現良好

用於 SEA-E 的資料集: <inste,pi^,riSEAS>
數據集使 SEA-E 經過微調後,具備生成全面且建設性審查的能力


SEA-A: Analysis

Mismatch Score(不一致分數)

用來衡量論文與其生成審查之間的一致性

ytruepri=sprij=1mcprjsprij=1mcpri

SEA-A 回歸模型訓練

自我修正策略


Experiments

Experimental Details

Dataset

All the datasets include the original PDF files of the papers and structurally formatted reviews.

Dataset Statistics Paper Reviews.png

Setup

使用 Mistral-7B-Instruct-v0.2,上下文可以包含 32k
在評估模組中,評論會包含三個部分:

設定的部分:

有兩個方法可以產生 Reviews :
SEA-E, SEA-EA(就是在 SEA-E 的基礎下加上 Analysis module)

Baselines

  1. Direct inference with LLMs
    • 使用未經微調的 Mistral-7B 模型來直接推理
    • 給模型統一指令 (inste),依賴於模型本身的內在能力,沒有進行針對具體任務的調整或微調
  2. SFT methods
    • Mistral-7B-Random (M-7B-R)
      • 隨機選擇一個現有的評審作為輸出,品質波動較大
    • Mistral-7B-GPT-3.5 (M-7B-3.5)
      • 透過 GPT-3.5-turbo 進行標準化,接著進行微調,用於統一評審格式
    • REVIEWER2 (Gao et al., 2024)
      • 考慮到耗時問,使用較小的數據集進行實驗

Main Results

使用不同的指標來對生成的 Reviews 進行評估:

SEA 在所有測試場景中,都優於其他 baseline 模型:

SEA-table2.png


Comparison of Standardized Results

Standardized results on papers in the training set of NeurIPS-2023 and ICLR-2024 that have different rating criteria.

Content analysis

模型選擇 SEA-S、Mistral-7B、GPT-3.5 和 GPT-4 作為比較
標準化任務沒有 Ground-Truth 文本,因此採用以下:

SEA-S 生成獨有內容多餘 Mistral-7B 和 GPT-3.5,還比 GPT-4 略多一點,這表明 SEA-S 能更好地進行評審標準化並提供更多的信息

SEA-Content analysis results.png

Format analysis

標準化數據對於 LLMs 進行 SFT 時,可以更有助於生成內容之間的對應關係,為了判斷是否可以按照指令輸出正確格式,使用 Regular Expression 來匹配計算不同模型的格式正確率

SEA-S 服從標準的準確性.png

Mismatch Score in SEA-A

透過 SEA-A 計算 Mismatch Score ,輸入:

結果分析

SEA-The performance of different models on mismatch scores across various datasets..png

Quantitative Score Analysis

針對生成 Reviews 進行量化分析,包含四個項目:

每篇論文有多個評審,要評估上述四個項目,每個分數都有 Confidence 作為權重,計算加權平均分做為參考

結論:

SEA Quantitative Score Analysis.png


Qualitative Decision Analysis

對於論文中的 Decision 與 Reason 進行分析:

結論

(*) 代表產生的內容有不完整或錯誤的部分,只計算有效的
SAE-Qualitative Decision Analysis..png


Conclusion


Limitations


Powered by Forestry.md