BERTScore
與傳統的 n-gram (BLEU, ROUGE(Recall-Oriented Understudy for Gisting Evaluation)匹配方法不同,BERTScore 能捕捉更深層的語義關聯,對詞彙變化和同義詞具有更高的容忍度。
- 基於深度語言模型(BERT)的詞向量相似度,不只看詞面重疊,更評估語意距離。
- BERTScore-P:重點偏向“精確率”(Precision),觀察輸出多少部分與參考文本的語意相符。
- BERTScore-R:重點偏向“召回率”(Recall),觀察參考文本多少部分被輸出成功覆蓋。
- BERTScore-F1:在精確率與召回率間取平衡的綜合分數。