BM25
Sparse Search (BM25 / TF-IDF)
BM25 (Best Matching 25) 是一種用於資訊檢索的演算法
=> 旨在評估文件與查詢之間的相關性
可以應用在 RAG, Retrieval-Augmented Generation
擅長關鍵字、專有名詞、法規條號(精準但怕語意改寫)
- 詞頻調整(TF, Term Frequency):同一詞彙在文件中出現多次會增加相關性,但有遞減效果,避免單詞出現次數過多時對相關性評估產生過度影響。
- 逆文件頻率(IDF, Inverse Document Frequency):提升稀有詞彙的重要性,與TF-IDF類似,BM25使用IDF來衡量單詞的重要性,罕見詞語的權重較高。
- 文件長度正規化:引入文件長度因素,調整長短文件之間的相關性評估,避免長文件因包含更多詞語而獲得不公平的高分。