Automatic Analysis of Substantiation in Scientific Peer Reviews

type url
Paper 2311.11967
Dataset YanzhuGuo/SubstanReview
Conference ACL2023

目的:Peer Review中的品質控制
提出以審查內容的證據支持性(substantiation)來評估評論質量


內容說明

隨著學術會議審查數量增加,審查品質不穩定問題凸顯,提出以審查內容的證據支持性(substantiation)來評估評論質量


自動化質量控制的需求

評論質量分析


SubstanScore

目的:

計算:

SubstanceReivew-SubstanScore.png


Dataset

研究者選用來自 NLP 領域的 NLPeer 資料集,因為它是目前最具倫理規範的同行評論語料庫。

作者選擇了 NLP 會議的評論(例如 CoNLL、ACL、COLING 等)進行標註,以避免其他 AI 子領域的評論風格差異對模型效能的影響。然而,這樣的選擇也帶來限制,因為資料僅涵蓋 NLP 範疇,限制了模型在其他 AI 子領域的通用性。


優缺點

優點:

  1. 填補實證性分析的研究空白
    • 首個專門針對科學同行評審進行「主張-證據對」標註的數據集
  2. 多元化的評論標註
    • 包含了正面評價(Eval_pos)、負面評價(Eval_neg)、支持正面評價的證據(Jus_pos)、支持負面評價的證據(Jus_neg)以及主要主張(Major_claim

缺點:

  1. 資料來源、規模受限
    • 目前的同行評審數據集普遍採用捐贈制的流程,即只有在 作者與審稿人雙方同意 公開的評審資料才會被納入
    • 僅是 NLP 領域受限可能導致泛化不佳
  2. Bias (資料偏差)
    • 只有自信評審質量較高的審稿人會願意公開其評審意見,因此數據集中的評論質量可能偏高。這導致數據集中的評審文本更傾向於高質量、有充分實證性的評審,而不代表現實中的所有評審質量分布。
    • 真實場景中,評審質量往往更為參差不齊,因此基於該數據集訓練的系統在應用於實際場景時,可能會因為資料偏差而面臨挑戰

欄位說明

主張-證據對,目的是通過這種標註結構分析評論中的實證性水平,評估評論是否有足夠的證據支持其評價。


引用文獻


速讀, Support by GPT-4o.

Powered by Forestry.md