Multilingual-E5-Large-Instruct
語意向量化(text embedding)
多語言模型,屬於 E5(Embedding from bidirectional Encoder representations) 系列
多用在 語意搜尋、RAG、相似度比對、跨語言檢索 等任務
Information Here : intfloat/multilingual-e5-large-instruct · Hugging Face
關鍵特性
- Multilingual(多語言)
支援上百種語言(含中英日韓等),不同語言的相同語意會落在相近的向量位置,適合跨語言檢索。 - Large(大模型)
相較e5-base / e5-small,large在語意對齊、長句理解、專業文本(如法律、技術文件)表現更好,但計算成本較高。 - Instruct(指令導向)
輸入需帶有任務前綴,讓模型「知道你在做什麼」,可顯著提升 embedding 品質。
Request
{
"inputs": "string", # 輸入
"normalize": true, # 把向量長度標準化,常用於 cosine similarity / 向量檢索
"prompt_name": "null", # 指定要套用哪個 **prompt template 名稱
"truncate": false, # 是否啟用截斷
"truncation_direction": "right" # 如果要截斷,從哪一邊截掉,值是 `left` 或 `right`
}