BLEU
BLEU(Bilingual Evaluation Understudy) 是一種自動化評估自然語言生成(NLG)模型輸出品質的指標。
- 主要透過 n-gram(字詞片段)與參考答案重疊的比例,量化譯文或文本的品質。
- 早期常用於機器翻譯評估。
- 數值越高代表和參考文本在用字上越類似。
用來評估翻譯品質
hypothesis(機器生成)vs reference(人工正確答案)
→ 算 n-gram 重疊程度
→ 越高 = 越像正確答案
主要方法是:
衡量生成文本(候選句子,Candidate Sentence) 與 參考文本(Reference Sentence) 的相似性。
取值範圍 0~1之間:
- 完美匹配 (Perfect Match): 1
- 完美不匹配(Perfact Mismatch): 0
優點:
- 計算成本小、快速
- 容易理解
- 與語言無關(可以使用大部分的語言測試)
- 與人類評價結果相關
- 廣泛應用
缺點:
- 基於表面文本的 n-gram 匹配,無法捕捉深層的語義相似性
- BLEU 可能會低估多樣性,因為它會偏好與參考文本過於一致的候選文本
- 在機器翻譯中,通常會有多個參考翻譯來增加 BLEU 的可靠性。然而在 auto peer review 中,我們可能只有有限數量的高質量人類評審意見作為參考,這會影響 BLEU 分數的穩定性
方法
- N-gram
- 計算 Candidate Sentence 與 Reference Sentence 中 n-gram
(通常是 1-gram 到 4-gram)的重疊程度。 - 這表示它會檢查單字、雙字、三字和四字序列在兩者之間的重合度。
- 計算 Candidate Sentence 與 Reference Sentence 中 n-gram
- 精確度(Precision)
- 衡量 Candidate Sentence 中 n-gram 出現的比例與 Reference Sentence 中 n-gram 的比例
- 偏重生成句子「包含」多少正確的詞語序列
- 懲罰因子(Brevity Penalty, BP):
- 為避免生成過短的句子獲得高分
- 當候選句子長度短於參考句子時,BLEU 分數會因懲罰因子而降低。
- 分數範圍:
- BLEU 分數範圍為 0 到 1,通常以百分比表示(0% - 100%)
- 越接近 1,表示候選句子與參考句子越相似