Auto Peer-Review

同行評審 (PeerReview) ,是出版商用來評估論文質量的重要工具,幫助決定這篇論文能否在期刊上發表。


隨著科學進展的加速,研究出版量顯著增加,這促使自動化及半自動化審查工具需求日益增長,以應對人力資源不足的挑戰。

儘管同行評審被廣泛應用並展現實用性,但其為一項高投入的活動,需依賴專業知識且容易受到偏見影響[Stelmakh et al., 2021]。


Dataset

Framework


模型生成不準確或無根據內容的原因可能有以下幾點:

  1. 缺乏領域知識(Lack of Domain Knowledge)
    • 模型未經過足夠的領域數據訓練,對專業概念和術語理解不充分,導致回應內容不符合專業標準。
  2. 訓練數據質量(Quality of Training Data)
    • 訓練數據包含錯誤資訊或噪聲,導致模型學習到錯誤知識,進而產生不準確的輸出。
  3. 偏向生成性回應(Tendency for Generative Responses)
    • 大型語言模型傾向於根據提示自動填補內容,即使沒有足夠的上下文資訊,也可能創造出看似合理但實際無根據的回應(幻覺現象)。
  4. 缺乏事實校驗機制(Lack of Fact-Checking Mechanism)
    • 語言模型缺少內建的校驗過程,無法即時核實輸出的內容是否符合已知的真實資訊。
  5. 缺乏上下文理解(Lack of Contextual Understanding):模型無法充分理解問題的背景或需求,因此無法提供具體的、針對性的回答。

Evaluation

偏見問題

人類和自動審核員都表現出不同程度的偏見和偏差 ,而且系統產生的審核比人類審核員更有偏見。

自動審稿系統中的偏見分析:

偏見量化方法

審稿特性?

好的自動審稿系統應具備以下特性:

Review commonly involves both objective (e.g. “lack of details necessary to replicate the experimental protocol”) and subjective aspects (e.g. “lack of potential impact”). #cite

[2102.00176] Can We Automate Scientific Reviewing?

Powered by Forestry.md