NLPEER - A Unified Resource for the Computational Study of Peer Review

#cite
Peer review constitutes a core component of scholarly publishing; yet it demands substantial expertise and training, and is susceptible to errors and biases

The first ethically sourced multidomain corpus 道德來源資料庫？！

目標
解決現有 NLP 同行評審研究面臨的數據缺乏、領域多樣性不足及數據模型不統一等問題
展示了三個 NLP 評審輔助任務，為同行評審的計算研究奠定了基礎

評分預測
語用標註
引導瀏覽

NLPeer 的時間軸.png

改善同行評審流程的效率與公平性
- 透過評分預測、語用標註等任務，幫助審稿人理解評審文本中的重點，並提供評分建議，減少主觀偏見
- 開發 NLP 工具提供數據支持
標準化與統一資料模型
- 將不同來源的評審數據轉換為一致的格式，保留文檔結構和跨文件的鏈接，方便進行跨數據集和跨語域的 NLP 模型訓練和評估

NLPEER 資源來自於 NLP 和計算語言學社群，以及 F1000Research 等平台
涵蓋了從 2012 到 2022 年的審稿數據，並且採用了統一的資料表示方法來進行標準化處理。

認為的限制：

閱讀行為的影響：引導瀏覽功能可能會鼓勵審稿人只閱讀模型建議的段落，導致「懶惰閱讀」，降低審稿質量。
領域與語言覆蓋不足：雖然 NLPEER 涵蓋了多個研究領域，但它僅包含英文的學術論文與評審報告，缺乏多語言的資料，尤其在人文與藝術領域的代表性不足。
資料偏誤風險：資料集中 ARR-22 和 COLING-20 是通過捐贈方式收集，可能存在捐贈者偏誤，影響數據的代表性與公平性。

資料集名稱	評審系統	領域	時間範圍	論文數量	評審報告數量	平均每篇論文評審數
ARR-22	雙盲審查	NLP/CL	2021-2022	476	684	1.43
COLING-20	雙盲審查	NLP/CL	2020	89	112	1.27
ACL-17	雙盲審查	NLP/CL	2016-2017	136	272	2.0
CONLL-16	雙盲審查	NLP/CL	2015-2016	22	39	1.77
F1000-22	開放審查	多領域	2012-2022	4949	10418	2.11
總計	-	多領域	2012-2022	5672	11515	1.72（平均）