L2 Regularization(Ridge)

L2 損失對應 L2 範數(又稱「歐氏距離」,Euclidean norm):

L2=||yy^||22=(yiy^i)2

也就是說:
我們計算每個預測誤差 (yiy^i)平方,再把它們全部加起來。
這就是熟悉的 Mean Square Error, MSE (均方誤差) 概念。


L2 會計算「每支箭距離靶心的平方距離」——離得越遠,懲罰越大,
所以它會迫使模型「盡量讓每一支箭都貼近靶心」

小錯誤容忍、大錯誤懲罰重,讓模型追求整體穩定


L2 的特性與優缺點

特性 說明
懲罰大誤差更重 因為平方誤差會放大距離大的點。
對離群值敏感 Outlier 會主導 Loss。
梯度平滑、連續 對於深度模型很友善,容易穩定收斂
讓權重變小但不為 0 模型不會斷層,保留所有特徵但影響力減弱。

LLM / Transformer / CNN → 都用 L2 來控制權重大小、防止過擬合


## 為什麼深度學習都用 L2?

  1. 梯度平滑、不突兀 → 適合大規模反向傳遞(backprop)
  2. 避免權重爆炸(exploding weights)
  3. 持續微調而不毀壞模型結構
  4. 與 AdamW / SGD 完美搭配

L2 就像「每次整理書桌時不丟東西,但把所有東西都推整齊」
每個權重都還在,只是被壓得更小、更有秩序

相對地,L1 Regularization(Lasso) 是「直接丟掉幾樣不重要的東西」
進行特徵選擇 (詳細看 L1 vs L2 正則化 — 實務差異)


實務

模型 正則化使用方式 說明
線性回歸 / Logistic 回歸 Ridge(L2) 防止係數過大、穩定結果。
深度學習模型(CNN, Transformer, LLaMA) Weight Decay
(L2)
控制模型參數大小、穩定訓練。
LLM 微調(LoRA / QLoRA) Adapter 層 L2 限制新權重更新幅度,保持原知識。

Powered by Forestry.md