語言模型的歷史（Language Model Evolution）

深度解读：大语言模型的前世今生，看完这个视频就够了。 - YouTube

自然語言處理（NLP）早期只能靠規則與詞典理解句子，無法捕捉語意與上下文，因此誕生了「語言模型」這一脈演化鏈，逐步讓機器能理解「語意關聯」與「語境差異」。

語言模型的演進就是：從詞法規則 → 統計模型 → 分佈式語意 → 序列建模 → 注意力機制 → Transformer 節點革命。

分詞與詞庫時代

概念：早期模型以「字詞」為單位處理語料（如 TF-IDF、n-gram (BLEU) ）。
問題：
- 無法理解「語意相近詞」（如「快樂」與「高興」）。
- 維度爆炸、稀疏矩陣（Sparse Representation）。

Word2Vec：語意向量化

關鍵想法：「上下文決定詞義」(You shall know a word by the company it keeps)。
做法：
- 使用 CBOW / Skip-gram 模型，根據周圍詞預測中心詞或反之。
- 每個詞都對應一個固定向量（靜態 embedding）。
成果：
- 能捕捉語意關係，例如：
  vector("king") - vector("man") + vector("woman") ≈ vector("queen")
限制：
- 靜態語意：無法區分「bank」在「river bank」與「financial bank」的不同語境。

RNN, Recurrent Neural Network：序列記憶

動機：語意會因前文改變 → 模型需「按順序」理解句子
特色：
- 逐字讀入、保留過去狀態（hidden state）
- 適合處理時間序列與語句順序
限制：
- 記憶遞減問題（Long-term dependency）
- 無法捕捉長距離依賴，訓練難（梯度消失/爆炸）

Attention 注意力機制

關鍵突破：
- 讓模型「有選擇地關注」句子中重要的詞
- 不再只看前一個狀態，而是根據權重選擇性讀取整個上下文
影響：
- 解決長期依賴問題
- 大幅提升翻譯與語意理解效果

Transformer

革命性轉折：
- 完全捨棄 RNN 結構，改以自注意力 (Self-Attention) 同時處理整個序列。
- 可並行計算，大幅提升訓練效率與上下文理解力。
結構特色：
- Encoder-Decoder 架構。
- 多頭注意力（Multi-Head Attention）能捕捉不同語意面向。
影響：
- 為 BERT（理解）與 GPT（生成）奠基。
- 成為今日大語言模型（LLMs）的核心骨架。

Powered by Forestry.md