ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
評估「生成出來的摘要」和「實際人工標注」的結果如何
一組用於評估「生成文本」和「標註文本」的指標,透過比較自動生成的文本與參考文本之間的重疊程度來衡量生成文本的品質。
- 優點:計算簡單,易於實現,能夠快速評估生成文本的品質。
- 限制:主要關注表面詞彙的重疊,可能無法充分捕捉語義相似性,對於語義相似但表達不同的情況,ROUGE 的評估可能不夠準確。
方法
- N-grams 衡量 papers 和 reviews 之間的相似性
- ROUGE-N:計算候選摘要與參考摘要之間的 n-gram(n 元組)重疊情況
- ROUGE-1: 單字重疊,檢查關鍵字覆蓋情況
- ROUGE-2: 兩連詞重疊,檢查詞組匹配
- ROUGE-L:最長公共子序列(Longest Common Subsequence, LCS)
- 文本整體結構和語意相似度
- ROUGE-W: ROUGE-L 的改進
- 給予連續匹配更高的權重,強調連續匹配的重要性
- ROUGE-S:計算跳躍二元組(skip-bigram)的匹配度
- 允許在計算 n-gram 時跳過中間的單詞。
- ROUGE-N:計算候選摘要與參考摘要之間的 n-gram(n 元組)重疊情況
- ROUGE 評估方法 — 自動文本摘要| by Sharon Peng | Medium
- aclanthology.org/W04-1013.pdf
- ROUGE-2, ROGUE-L, ROUGE-W, ROUGE-S
- 對於單一文件的評估效果很好。
- ROUGE-1, ROUGE-L, ROUGE-W, ROUGE-SU4
- 在極短的摘要中,評估效果很好。
- 排除停用詞可以提高相關性(correlation)
- 使用多個reference可以提升跟人類做出判斷的相關性