切分策略(Chunking Strategy)

將文件切分為較小片段對於提升檢索精度和避免 LLMs 長度限制問題


切分粒度的權衡(Trade-offs in Chunking Granularity)

  1. 較大片段(Larger Chunks)
    • 優點:提供更多上下文,有助於提升文本理解和生成效果,提高匹配的精度。
    • 缺點:處理時間更長,增加計算負擔,模型誤生成非檢索文本中的信息。
  2. 較小片段(Smaller Chunks)
    • 優點:提升檢索的召回率,處理速度更快,但可能會失去關鍵背景信息,影響回應的相關性。
    • 缺點:可能缺乏足夠的上下文,導致理解和生成質量下降,降低回應的真實性。

最佳片段大小的權衡(Finding the Optimal Chunk Size)

切分技術(Chunking Techniques)


Powered by Forestry.md