mmarco-mMiniLMv2-L12-H384-v1

cross-encoder/mmarco-mMiniLMv2-L12-H384-v1 · Hugging Face

Cross-Encoder，用於多語言檢索與排序
由 Hugging Face 用戶 cross-encoder 發佈；Apache 2.0 授權

基於 multilingual MiniLMv2（12 層、hidden size = 384）Transformer
約 0.1B 參數（相對較小且高效）
在 MMARCO 資料集上訓練；此為 MS MARCO 的多語言版本

傳統上歸類為 text-classification（對 query-document pair 進行相關性評分）
主要用於資訊檢索中的 re-ranking 與排序
至少 14 種語言（英、阿、中文、法、德、日、葡、俄、西、越等）

使用情境

檢索系統 re-ranking（ElasticSearch 取前 N 再排序）
多語言搜尋、跨語言 IR 相關性評分

Cross-Encoder 定義

將 query 與 passage 一起輸入模型，讓注意力機制共同考量兩者語意互動
=> 對相關性給出分數
相比 Bi-Encoder （query / doc 分別嵌入再比對），Cross-Encoder 在精準排序上通常更強
=> 但運算更重

Powered by Forestry.md