NLP 向量搜尋
適合的度量類型通常取決於特定應用場景與向量的表示方式,但常見的選擇是 Cosine 相似度 (COSINE) 和 內積 (IP)。
- Cosine 相似度 (COSINE)
- 衡量兩個向量之間的角度,與向量的大小無關,適合處理方向
- [-1, 1],值越大表示相似度越高
- 用於比較文本的語意相似性
- 當向量已進行標準化(歸一化)處理
- 內積 (IP, Inner Product)
- 直接比較向量的投影值,與向量的大小和方向有關
- [-1, 1],值越大表示相似度越高
- 當模型生成的向量並未進行標準化處理
Cosine 相似度:
NLP 領域中常見的詞嵌入(如 Word2Vec、FastText、GloVe、Sentence-BERT),且嵌入向量已經歸一化,則推薦使用 Cosine 相似度。
內積 (IP):
處理的是未標準化的向量,且關注的是權重的影響(例如大模型的輸出),可以選擇 內積。