L2 Regularization(Ridge)
L2 損失對應 L2 範數(又稱「歐氏距離」,Euclidean norm):
也就是說:
我們計算每個預測誤差
這就是熟悉的 Mean Square Error, MSE (均方誤差) 概念。
L2 會計算「每支箭距離靶心的平方距離」——離得越遠,懲罰越大,
所以它會迫使模型「盡量讓每一支箭都貼近靶心」
→ 小錯誤容忍、大錯誤懲罰重,讓模型追求整體穩定。
L2 的特性與優缺點
| 特性 | 說明 |
|---|---|
| 懲罰大誤差更重 | 因為平方誤差會放大距離大的點。 |
| 對離群值敏感 | Outlier 會主導 Loss。 |
| 梯度平滑、連續 | 對於深度模型很友善,容易穩定收斂。 |
| 讓權重變小但不為 0 | 模型不會斷層,保留所有特徵但影響力減弱。 |
LLM / Transformer / CNN → 都用 L2 來控制權重大小、防止過擬合
## 為什麼深度學習都用 L2?
- 梯度平滑、不突兀 → 適合大規模反向傳遞(backprop)
- 避免權重爆炸(exploding weights)
- 能持續微調而不毀壞模型結構
- 與 AdamW / SGD 完美搭配
L2 就像「每次整理書桌時不丟東西,但把所有東西都推整齊」
每個權重都還在,只是被壓得更小、更有秩序
相對地,L1 Regularization(Lasso) 是「直接丟掉幾樣不重要的東西」
進行特徵選擇 (詳細看 L1 vs L2 正則化 — 實務差異)
實務
| 模型 | 正則化使用方式 | 說明 |
|---|---|---|
| 線性回歸 / Logistic 回歸 | Ridge(L2) | 防止係數過大、穩定結果。 |
| 深度學習模型(CNN, Transformer, LLaMA) | Weight Decay (L2) |
控制模型參數大小、穩定訓練。 |
| LLM 微調(LoRA / QLoRA) | Adapter 層 L2 | 限制新權重更新幅度,保持原知識。 |