BLEU

BLEU（Bilingual Evaluation Understudy） 是一種自動化評估自然語言生成（NLG）模型輸出品質的指標。

用來評估翻譯品質

hypothesis（機器生成）vs reference（人工正確答案）
→ 算 n-gram 重疊程度
→ 越高 = 越像正確答案

主要方法是：
衡量生成文本（候選句子，Candidate Sentence）與參考文本（Reference Sentence）的相似性。

取值範圍 0~1之間：

優點：

缺點：

基於表面文本的 n-gram 匹配，無法捕捉深層的語義相似性
BLEU 可能會低估多樣性，因為它會偏好與參考文本過於一致的候選文本
在機器翻譯中，通常會有多個參考翻譯來增加 BLEU 的可靠性。然而在 auto peer review 中，我們可能只有有限數量的高質量人類評審意見作為參考，這會影響 BLEU 分數的穩定性

方法

N-gram
- 計算 Candidate Sentence 與 Reference Sentence 中 n-gram
  (通常是 1-gram 到 4-gram)的重疊程度。
- 這表示它會檢查單字、雙字、三字和四字序列在兩者之間的重合度。
精確度（Precision）
- 衡量 Candidate Sentence 中 n-gram 出現的比例與 Reference Sentence 中 n-gram 的比例
- 偏重生成句子「包含」多少正確的詞語序列
懲罰因子（Brevity Penalty, BP）：
- 為避免生成過短的句子獲得高分
- 當候選句子長度短於參考句子時，BLEU 分數會因懲罰因子而降低。