語言模型的歷史(Language Model Evolution)
深度解读:大语言模型的前世今生,看完这个视频就够了。 - YouTube
自然語言處理(NLP)早期只能靠規則與詞典理解句子,無法捕捉語意與上下文,因此誕生了「語言模型」這一脈演化鏈,逐步讓機器能理解「語意關聯」與「語境差異」。
語言模型的演進就是:從詞法規則 → 統計模型 → 分佈式語意 → 序列建模 → 注意力機制 → Transformer 節點革命。
分詞與詞庫時代
- 概念:早期模型以「字詞」為單位處理語料(如 TF-IDF、n-gram (BLEU) )。
- 問題:
- 無法理解「語意相近詞」(如「快樂」與「高興」)。
- 維度爆炸、稀疏矩陣(Sparse Representation)。
Word2Vec:語意向量化
- 關鍵想法:「上下文決定詞義」(You shall know a word by the company it keeps)。
- 做法:
- 使用 CBOW / Skip-gram 模型,根據周圍詞預測中心詞或反之。
- 每個詞都對應一個固定向量(靜態 embedding)。
- 成果:
- 能捕捉語意關係,例如:
vector("king") - vector("man") + vector("woman") ≈ vector("queen")
- 能捕捉語意關係,例如:
- 限制:
- 靜態語意:無法區分「bank」在「river bank」與「financial bank」的不同語境。
RNN, Recurrent Neural Network:序列記憶
- 動機:語意會因前文改變 → 模型需「按順序」理解句子
- 特色:
- 逐字讀入、保留過去狀態(hidden state)
- 適合處理時間序列與語句順序
- 限制:
- 記憶遞減問題(Long-term dependency)
- 無法捕捉長距離依賴,訓練難(梯度消失/爆炸)
Attention 注意力機制
- 關鍵突破:
- 讓模型「有選擇地關注」句子中重要的詞
- 不再只看前一個狀態,而是根據權重選擇性讀取整個上下文
- 影響:
- 解決長期依賴問題
- 大幅提升翻譯與語意理解效果
Transformer
-
革命性轉折:
- 完全捨棄 RNN 結構,改以自注意力 (Self-Attention) 同時處理整個序列。
- 可並行計算,大幅提升訓練效率與上下文理解力。
-
結構特色:
- Encoder-Decoder 架構。
- 多頭注意力(Multi-Head Attention)能捕捉不同語意面向。
-
影響: