L2 Regularization（Ridge）

L2 損失對應 L2 範數（又稱「歐氏距離」，Euclidean norm）：

L 2 = | | y - \hat{y} | |_{2}^{2} = \sum (y_{i} - {\hat{y}}_{i})^{2}

也就是說：
我們計算每個預測誤差 $(y_{i} - {\hat{y}}_{i})$ 的平方，再把它們全部加起來。
這就是熟悉的 Mean Square Error, MSE (均方誤差) 概念。

L2 會計算「每支箭距離靶心的平方距離」——離得越遠，懲罰越大，
所以它會迫使模型「盡量讓每一支箭都貼近靶心」

→ 小錯誤容忍、大錯誤懲罰重，讓模型追求整體穩定。

L2 的特性與優缺點

LLM / Transformer / CNN → 都用 L2 來控制權重大小、防止過擬合

L2 就像「每次整理書桌時不丟東西，但把所有東西都推整齊」
每個權重都還在，只是被壓得更小、更有秩序

相對地，L1 Regularization（Lasso）是「直接丟掉幾樣不重要的東西」
進行特徵選擇 (詳細看 L1 vs L2 正則化 — 實務差異)

模型	正則化使用方式	說明
線性回歸 / Logistic 回歸	Ridge（L2）	防止係數過大、穩定結果。
深度學習模型（CNN, Transformer, LLaMA）	Weight Decay （L2）	控制模型參數大小、穩定訓練。
LLM 微調（LoRA / QLoRA）	Adapter 層 L2	限制新權重更新幅度，保持原知識。