NLPEER - A Unified Resource for the Computational Study of Peer Review
#cite
Peer review constitutes a core component of scholarly publishing; yet it demands substantial expertise and training, and is susceptible to errors and biasesThe first ethically sourced multidomain corpus 道德來源資料庫?!
目標
解決現有 NLP 同行評審研究面臨的數據缺乏、領域多樣性不足及數據模型不統一等問題
展示了三個 NLP 評審輔助任務,為同行評審的計算研究奠定了基礎
- 評分預測
- 語用標註
- 引導瀏覽

- 改善同行評審流程的效率與公平性
- 透過評分預測、語用標註等任務,幫助審稿人理解評審文本中的重點,並提供評分建議,減少主觀偏見
- 開發 NLP 工具提供數據支持
- 標準化與統一資料模型
- 將不同來源的評審數據轉換為一致的格式,保留文檔結構和跨文件的鏈接,方便進行跨數據集和跨語域的 NLP 模型訓練和評估
NLPEER 資源來自於 NLP 和計算語言學社群,以及 F1000Research 等平台
涵蓋了從 2012 到 2022 年的審稿數據,並且採用了統一的資料表示方法來進行標準化處理。
認為的限制:
- 閱讀行為的影響:引導瀏覽功能可能會鼓勵審稿人只閱讀模型建議的段落,導致「懶惰閱讀」,降低審稿質量。
- 領域與語言覆蓋不足:雖然 NLPEER 涵蓋了多個研究領域,但它僅包含英文的學術論文與評審報告,缺乏多語言的資料,尤其在人文與藝術領域的代表性不足。
- 資料偏誤風險:資料集中 ARR-22 和 COLING-20 是通過捐贈方式收集,可能存在捐贈者偏誤,影響數據的代表性與公平性。
| 資料集名稱 | 評審系統 | 領域 | 時間範圍 | 論文數量 | 評審報告數量 | 平均每篇論文 評審數 |
|---|---|---|---|---|---|---|
| ARR-22 | 雙盲審查 | NLP/CL | 2021-2022 | 476 | 684 | 1.43 |
| COLING-20 | 雙盲審查 | NLP/CL | 2020 | 89 | 112 | 1.27 |
| ACL-17 | 雙盲審查 | NLP/CL | 2016-2017 | 136 | 272 | 2.0 |
| CONLL-16 | 雙盲審查 | NLP/CL | 2015-2016 | 22 | 39 | 1.77 |
| F1000-22 | 開放審查 | 多領域 | 2012-2022 | 4949 | 10418 | 2.11 |
| 總計 | - | 多領域 | 2012-2022 | 5672 | 11515 | 1.72(平均) |