BM25

Sparse Search (BM25 / TF-IDF)

BM25 (Best Matching 25) 是一種用於資訊檢索的演算法
=> 旨在評估文件與查詢之間的相關性

可以應用在 RAG, Retrieval-Augmented Generation
擅長關鍵字、專有名詞、法規條號(精準但怕語意改寫)


  1. 詞頻調整(TF, Term Frequency):同一詞彙在文件中出現多次會增加相關性,但有遞減效果,避免單詞出現次數過多時對相關性評估產生過度影響。
  2. 逆文件頻率(IDF, Inverse Document Frequency):提升稀有詞彙的重要性,與TF-IDF類似,BM25使用IDF來衡量單詞的重要性,罕見詞語的權重較高。
  3. 文件長度正規化:引入文件長度因素,調整長短文件之間的相關性評估,避免長文件因包含更多詞語而獲得不公平的高分。

Hybrid Search (混合搜尋)


BM25 介紹:BM25 如何決定你餵給 LLM 的素材? | 白話文商學院

Powered by Forestry.md