mmarco-mMiniLMv2-L12-H384-v1
cross-encoder/mmarco-mMiniLMv2-L12-H384-v1 · Hugging Face
Cross-Encoder,用於多語言檢索與排序
由 Hugging Face 用戶 cross-encoder 發佈;Apache 2.0 授權
- 基於 multilingual MiniLMv2(12 層、hidden size = 384)Transformer
- 約 0.1B 參數(相對較小且高效)
- 在 MMARCO 資料集上訓練;此為 MS MARCO 的多語言版本
傳統上歸類為 text-classification(對 query-document pair 進行相關性評分)
主要用於資訊檢索中的 re-ranking 與排序
至少 14 種語言(英、阿、中文、法、德、日、葡、俄、西、越等)
使用情境
- 檢索系統 re-ranking(ElasticSearch 取前 N 再排序)
- 多語言搜尋、跨語言 IR 相關性評分
Cross-Encoder 定義
- 將 query 與 passage 一起輸入模型,讓注意力機制共同考量兩者語意互動
=> 對相關性給出分數 - 相比 Bi-Encoder (query / doc 分別嵌入再比對),Cross-Encoder 在精準排序上通常更強
=> 但運算更重