BLEU

BLEU(Bilingual Evaluation Understudy) 是一種自動化評估自然語言生成(NLG)模型輸出品質的指標。


用來評估翻譯品質

hypothesis(機器生成)vs reference(人工正確答案)
→ 算 n-gram 重疊程度
→ 越高 = 越像正確答案

主要方法是:
衡量生成文本(候選句子,Candidate Sentence)參考文本(Reference Sentence)相似性

取值範圍 0~1之間:

優點

缺點


方法


Powered by Forestry.md