BEVERS - A General, Simple, and Performant Framework for Automatic Fact Verification

Abstract

這篇 BEVER 主要研究自動事實驗證,針對 FEVER 數據集有很好的表現。框架使用標準的文檔檢索句子選擇驗證主張分類方法
BEVER 在 FEVER 的評分和標籤準確性方面優於所有已知系統。在另一個驗證的數據集 Scifact 上也都達到了最高標準準確性。

Introduction


FEVER數據集簡介

由於近年來線上假信息(misinformation)的盛行,特別是在COVID-19大流行期間,自動事實驗證變得越來越重要。

FEVER數據集是一個廣泛使用的數據集,專門用於自動事實驗證。
數據集包含185,445個聲明(claims)和超過5,000,000篇Wikipedia文章作為驗證語料庫,從這些頁面中選擇相關的句子,根據這些句子和聲明來判斷聲明是被支持、被反駁還是沒有足夠的信息。

事實驗證的基本流程,對於每個聲明,任務包括三個主要步驟:

  1. 找到相關的Wikipedia頁面
  2. 從這些頁面中選擇相關的句子
  3. 根據這些句子和聲明來判斷聲明是被支持、被反駁,沒有足夠的信息。

主要評估指標:FEVER分數

FEVER分數是評估系統性能的主要指標,它要求預測的標籤必須是正確的,並且至少有一個正確的證據被檢索出來。

Main Metric: FEVER Score


Baseline fact Extraction and VERification System (BEVERS).

基線事實提取和驗證系統

許多近期的研究已經審查了流程的各個部分,並對基線方法做出了創新的改進。但這個系統不是對基線流程進行創新改進,而是調整這些組件的每一個部分以確保最大的性能。


在FEVER上的實驗結果

系統在FEVER的盲測數據集上達到了最先進(SOTA)的性能。
基線流程應用於另一個流行的事實驗證數據集Scifact時,系統在該數據集上也實現了最高的標籤F1分數。

跟隨先前工作但進行優化
BEVERS沒有對基線流程進行創新改進,而是對每個組件進行了調整以確保最大性能。具體來說,它的流程與使用Transformer模型的第一個FEVER系統(由Soleimani等人於2020年提出)相似。

Optimized Existing Work
Fine-tuned based on prior approaches for peak performance.

Related Work and Methods


Document Retrieval

TD-IDF
初始的FEVER基線使用了標準的TF-IDF文檔檢索模型。

NER
Hanselowski等人(2018)通過使用命名實體識別(NER)從聲明文本中提取查詢詞,並使用這些查詢詞對WikiMedia的API2進行查詢,從而對此進行了改進,該API2已經被廣泛使用。

結合傳統IR方法和NER
如Stammbach(2021)和Jiang等人(2021),使用了傳統的信息檢索方法與Hanselowski等人(2018)的NER方法的組合。

Combining traditional IR methods and NER


Method

BEVERS is similar to past methods but has some changes.

TD-IDF
文檔和標題建立單獨的表示。
首先,分別 optimize 標題和文檔的參數。
其次,讓系統根據單獨根據標題找出一半的文件,根據這些標題找出至少一半的搜索結果,這樣的好處是讓系統更重視標題名稱。

TD-IDF


Sentence Selection

在檢索文檔之後,下一步是對證據進行評分並為聲明的預測證據形成一個排名。
這部分主要著重於如何從檢索到的文檔中選擇相關的句子作為預測的證據

點對點排名(Point-wise Ranking)

BEVERS採用了最簡單的點對點排名方法,其中每個句子都單獨地與聲明進行比較和評分。

二元與三元分類(Binary and Ternary Classification)

BEVERS考慮了兩種情況:將任務視為二元分類任務和三元分類任務。
在二分類的情況下,標籤集僅包括「相關」和「不相關」,其中「相關」的softmax分數用於排名。
在三分類的情況下,我們使用「駁斥」、「信息不足」和「支持」作為標籤,並使用1減去「信息不足」的softmax分數進行排名。

文檔檢索方法中檢索的文檔中隨機抽樣句子作為負樣本
在二分類情況下,這些隨機的負樣本被分配到「不相關」的標籤類別,所有真實的證據被分配到「相關」。
在三分類情況下,負樣本被分配到「信息不足」,而真實的證據則被分配到其相應的標籤,即「駁斥」和「支持」。

重新檢索(Re-retrieval)

Evidence-based re-retrieval 是一種在句子選擇過程中使用的方法,旨在改進初步檢索到的證據。這個過程利用了FEVER數據集中每個句子的超鏈接信息。

為什麼這麼做

  1. 提高準確性:這個過程可以提高檢索到的證據的準確性和相關性。
  2. 多跳檢索(Multi-hop Retrieval):這種方法與 Stammbach(2021)的多跳檢索非常相似,允許系統從初始檢索的句子中找到的超鏈接提取額外的文檔。

怎麼做?

  1. 初始預測證據(Initial Predicted Evidence):首先,從一個或多個文檔中檢索一組初始的預測證據。
  2. 超鏈接信息(Hyperlink Information):這個過程利用初始句子中找到的超鏈接信息來提取額外的文檔。
  3. 額外文檔(Additional Documents):從這些額外的文檔中檢索句子。
  4. 評分和結合(Scoring and Combining):這些額外文檔中的句子會被評分並與初始句子結合,以形成一個最終的預測證據集合。
  5. 排名機制(Ranking Mechanism):如果一個句子 sj 是由於 si​ 中的一個超鏈接而被檢索的,那麼最終的檢索分數會是 score(si)×score(sj)。

Evidence-based re-retrieval.

  1. Initial Predicted Evidence: Initially, a set of predicted evidence is retrieved from one or multiple documents.
  2. Hyperlink Info: Hyperlinks found in the initial sentences are used to extract additional documents.
  3. Additional Documents: Sentences are retrieved from these extra documents.
  4. Scoring & Combining: Sentences from additional documents are scored and combined with initial sentences to form a final evidence set.
  5. Ranking Mechanism: If a sentence sj​ is retrieved due to a hyperlink in si​, the final retrieval score is score(si)×score(sj).

Evidence-based re-retrieval.

Different with Multi-Hop Retrieval and BEVERS

BEVERS的方法與Stammbach(2021)的"multi-hop retrieval"非常相似,但在結合兩組句子時有細微的差異。

Multi-Hop Retrieval(多跳檢索)

這是一種由Stammbach(2021)提出的方法。它也使用超鏈接信息來進行額外的文檔檢索。Stammbach設定了一個預定義的閾值,以防止重新檢索的證據將初始檢索的證據推出前5名。

BEVERS
BEVERS發現,簡單地將兩組句子組合在一起實際上會降低召回率,因為重新檢索的證據有時會將初始檢索的相關證據推出前5名。

細節調整

為了防止重新檢索的證據將初始檢索的相關證據推出前5名,BEVERS對重新檢索的句子進行了分數調整。
如果某個證據 sj 是由於在 si 中的一個超鏈接而被檢索的,那麼最終的檢索分數會是 score(si)×score(sj)。這種縮放方式減少了重新檢索得到的證據將最初檢索得到的證據從前五個選項中推出。
也允許重新檢索到的證據的得分與負責其檢索的最初證據的得分成正比。

這個"evidence-based re-retrieval" 方法允許BEVERS在保留初始檢索結果的優質性的同時,還能進一步提高句子選擇的效果。

性能(Performance)

根據論文中的實驗結果,BEVERS的句子選擇系統在開發集上的召回率(recall @ 5)表現優於所有先前的系統。


Claim Classification

這一部分主要著重於如何對每個聲明進行分類,即判斷它是被支持、被反駁,還是沒有足夠的信息。
BEVERS使用了多種不同的模型和方法來進行聲明分類。

多樣性的方法
最近在聲明分類方面有多種不同的方法,包括使用Transformer模型和圖神經網絡。

初始的Transformer方法
由Soleimani等人(2020)提出,這個方法對每一對聲明和證據進行了預測,並使用一組簡單的規則來整合不同證據片段的標籤。

圖神經網絡
Liu等人(2020)和Zhong等人(2020)探討了使用圖神經網絡作為聲明分類模型,顯示出由於能夠聚合不同證據片段的信息而優於僅使用Transformers。

最近的改進
更大的Transformer模型和將所有證據句子連接在一起已經顯示出進一步的改進。Jiang等人(2021)使用了T5模型,而Stammbach(2021)使用了DeBERTa V2 XL MNLI。

Method

對於我們的方法,我們會考慮三種情況:單例(singleton)、連接(concatenated)和混合(mixed case)的預測。
使用文檔選擇和句子選擇來為每一個主張的訓練預測一個前五的證據集合。

在單例情況下,我們使用⟨主張,證據⟩對作為輸入,為每一個證據片段生成一個預測。
在連接(concatenated)情況下,我們將所有證據連接在一起,並基於⟨主張,證據1,證據2,...⟩來形成輸入。
在單例情況下,輸入是一個5 × 4矩陣(5個證據,3個softmax分數和一個檢索分數)。

對於混合(mixed)方法,我們將單例(singleton)方法和連接(concatenated)方法混合在一起。
在混合情況下,輸入是一個6 × 4矩陣(包括額外連接的輸入softmax分數和檢索分數,這是從5個證據的平均檢索分數計算出來的)。

對於單例和混合方法,我們對每一個主張都有多個預測。
為了將這些聚合成單一分數,我們使用每個預測的softmax分數和檢索分數,並在這些輸入上訓練一個梯度提升分類器(Friedman, 2001)以產生單一預測。

Experimental Setup

BEVER 改進的主要來源是對每個組件進行超參數調整。
識別超參數和潛在的值,並執行網格搜索以找到每個組件的最佳配置。

TD-IDF

使用 SciKit Learn(Pedregosa 等人,2011)的 TF-IDF 表示法。
模糊字符串搜索是使用 Sqlite 的 spellfix1 虛擬表來實現的。

句子選擇超參數調整

選擇超參數調整被分為兩個部分

  1. 首先,優化選擇的負樣本數量以及用於排名的二進制與三進制類。
  2. 使用初始設置的最佳選擇,調整學習率和標籤平滑。

selection hyperparameter tuning is split into two sections.

其他細節:
由於FEVER數據集沒有為NOT ENOUGH INFO claims提供證據,因此必須使用負樣本來生成這些訓練示例。

Results

Sentence Selection

主要指標: 使用recall @ 5作為主要的評估指標。這是因為當計算FEVER分數時,該指標僅考慮最多5個預測的證據。
與其他系統的比較: 在開發集上,本系統的句子選擇性能超過了所有先前的系統。這一點特別值得注意,因為即使相對於使用更大模型的系統(如Jiang et al. 2021的T5方法),本系統仍然表現出色。
特殊觀察: 包括基於證據的重新檢索(evidence-based re-retrieval)可以顯著提高recall指標。

Claim Classification

通過混合"單例(singleton)"和"串聯(concatenate)"的方法,系統獲得了一點小幅度的改進。儘管這種改進不是顯著的改善來源。

單例方法的局限和表現
單例方法不能模擬需要多跳證據(multi-hop evidence)的聲明。
儘管如此,它仍然表現得相當好。

模型大小和性能
該系統使用的是一個相對較小的模型,具有3億個參數,與T5的30億和DeBERTa V2 XL MNLI的9億相比。
儘管模型較小,但其RoBERTa Large MNLI系統在所有已發表的系統中達到了最高的FEVER分數。

DeBERTa V2 XL MNLI的使用
當使用DeBERTa V2 XL MNLI和混合方法時,該系統在盲測集(blind test set)上達到了所有系統中最高的標籤準確性和FEVER分數,無論是已發表還是未發表的。

Beyond FEVER: Scifact

BEVERS-Table6-SystemComparison.png

數據集結構
SciFact數據集與FEVER數據集在結構上非常相似。不同之處在於,SciFact的語料庫是由科學文章組成的。
一個困難的來源是,主張經常用非專業的語言來表達,這與科學文章中主題的呈現方式在形式上可能有很大的不同。

性能和比較

報告的指標是句子選擇+標籤(SS + L)和僅摘要標籤(Abstract LO),這些指標大致對應於FEVER的分數和FEVER的標籤準確性。
從SS + L指標可以看出,我們文件檢索系統的簡單性似乎限制了整個系統的表現。
儘管如此,在Abstract LO指標上,我們的系統在盲測集上獲得了最高的F1分數,超越了該指標上的最佳狀態。

Conclusion

  1. Introduction: Introduced BEVERS for FEVER and SciFact datasets.
  2. Similar Structure: Builds on previous works like Soleimani et al., 2020.
  3. Performance: Achieved SOTA in FEVER and top label accuracy in SciFact.
  4. Key to Success: Focused on hyperparameter tuning and error analysis.
  5. Takeaway: Shows a well-tuned baseline can be highly effective, even without novel contributions.
Powered by Forestry.md