Retrieving Support to Rank Answers in Open-DomainQuestion Answering

動機

傳統檢索無法「驗證答案正確性」
⇒ 現有 QA 系統（如 DPR, Dense Vector Retrieval (稠密向量檢索)）多半只根據 問題 q（或 q+a）與文本的語意/詞彙相似度 來檢索段落 ⇒ 但高相似度 ≠ 能支持答案為真

Answer Verification 需要「支撐關係（support relation）」而非主題相關性
但現有檢索模型並未被訓練去捕捉這種「支持關係」，而只是學到「語義接近」或「詞彙重疊」

整體架構（先有答案，再找證據）

把「檢索單位」從 q，升級成 (q, a)

雙編碼器（dual-encoder）

相似度：sim(q,a,s) = Q~ · s~（跟 DPR 一樣是 dot-product）

缺點

但一定要 Fine-Tuning (微調)
直接用 DPR，即使把 query 換成 (q,a)，模型仍只學到詞彙/主題相關性，而不是「支持關係」，因此常抓到看似相關、但無法證明答案正確的段落