A Dataset of Peer Reviews (PeerRead) - Collection, Insights and NLP Applications

Github	GitHub - allenai/PeerRead: Data and code for Kang et al., NAACL 2018's paper titled "A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications"
ACL	A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications - ACL Anthology

(撰寫輔助來自GPT-4o)

PeerRead

一個科學論文的同行評審資料集，旨在協助研究人員分析這些重要的資料。
包含超過 14,000 篇論文草稿及其在頂級會議（如 ACL、NIPS 和 ICLR）的接受或拒絕決定，以及其中部分論文的超過 10,000 篇專家撰寫的文字評審。

PeerRead #cite
Peer reviewing is a central component in the scientific publishing process.

The dataset consists of 14.7K paper drafts and the corresponding accept/reject decisions in top-tier venues including ACL, NIPS and ICLR.

該研究的目的是降低同行評審研究的門檻，提供首個公開的同行評審資料集 PeerRead，以便學術界能更深入地研究和分析評審過程。

內容說明

學術界對審查流程的質量、偏見和一致性問題頗具關注，尤其在AI會議中
PeerRead提供首個公開科學審查數據集，助力量化和改進審查流程

資料集的應用：

量化分析：資料集可用於分析評審過程中的各種細節，如總體推薦分數與「清晰度」、「影響力」和「原創性」等各方面分數的關聯性。
偏見分析：可用於揭示評審中可能存在的性別或國籍偏見。
教育用途：可為新手作者和初次擔任評審者提供多樣化的評審範例。

優缺點

優點：

首個公開的同行評審資料集
- 第一個面向學術社群公開的同行評審資料集，打破了過去僅限於期刊編輯和會議主席等少數人才能訪問的限制
- 來自多個頂級會議（如 ACL、NIPS、ICLR）的論文草稿、評審意見及接收/拒絕決定，涵蓋不同領域，具有代表性
涵蓋文本與數值標註
- 評審意見不僅有文本描述，還有數值評分（如「清晰度」、「影響力」等）分析和建模提供了豐富的標註特徵，有利於進行情感分析和預測評分等 NLP 任務。
支援多種研究應用
- 可用於分析同行評審過程中的偏見（如性別、國籍偏見）、評審意見的一致性
- 用於開發新型自動評審工具，減少人力負擔，提升評審效率

缺點：

偏見問題
- 主要來自部分頂級會議，無法代表所有學術會議或期刊的評審標準或風格
資料品質不均勻、泛化挑戰
- 不同評審者之間可能存在不同一致性和主觀問題、影響資料標準化處理和模型訓練效果
時效性問題
- 隨著時間推移，會議標準和學術界的研究方向可能會變化，這可能會限制資料集在長期研究中的適用性

欄位說明

以下是各類別名稱的解釋：

SUBSTANCE
- 評估論文內容的深度和完整性。
- 分數越高，表示論文內容越具體且貢獻較大。
APPROPRIATENESS
- 評估論文與會議或期刊主題的相關性。
- 分數越高，表示論文更適合在該場合發表。
PRESENTATION_FORMAT
- 表示建議的展示方式，如「Oral Presentation」（口頭報告）或「Poster」（海報展示），通常依據內容的重要性、清晰度及適合展示的方式來建議。
comments
- 包含審稿人對論文的詳細評語，包括優點、缺點及建議改進之處。
SOUNDNESS_CORRECTNESS
- 評估論文在方法、邏輯和實驗設計上的正確性和合理性。
- 高分表示方法穩健，設計嚴謹。
ORIGINALITY
- 評估論文的新穎性和原創性。
- 分數越高表示論文提出了新的概念、方法或發現。
is_meta_review
- 標記此審查是否為「Meta Review」（綜合審查），這種審查通常是對多位審稿人的意見的綜合和總結。
RECOMMENDATION
- 審稿人對是否接受論文的建議，通常基於整體評價和該論文在該領域的貢獻。
CLARITY
- 評估論文的清晰度，包括論述和結構是否易於理解。
- 分數越高，表示表達更清晰。
REVIEWER_CONFIDENCE
- 表示審稿人對自己審查的信心程度。
- 分數越高，表示審稿人對該領域更有信心並能給出更可靠的評價。

會議 / 類別	年份範圍	論文數量	評審數量	平均每篇論文評審數
ACL	2017	約 137 篇	約 275 篇	2.00
CoNLL	2016	約 22 篇	約 39 篇	1.77
ICLR	2017	約 427 篇	約 1,304 篇	3.05
NIPS	2013 - 2017	約 2,420 篇	約 9,152 篇	3.781
arXiv (cs.CL)	2007 - 2017	約 11,778 篇	無評審數據	0
合計	2007 - 2017	約 14,784 篇	約 10,700 篇	2.12