L1 vs L2 正則化 — 實務差異

當模型太「聰明」時,容易記住訓練資料的細節而失去泛化能力
⇒ 這就叫 overfitting(過擬合)


為了讓模型更穩定,我們會對權重加上一點「懲罰」
這個懲罰就是 Regularization (正則化)

Pasted image 20260111145304.png

Pasted image 20260321003219.png

方法 概念
L1 (Lasso) 懲罰 權重絕對值
L2 (Ridge) 懲罰 權重平方

實務情境選擇

情境 建議使用 為什麼這樣用
特徵超多又稀疏(像是 NLP 的 bag-of-words、One-hot) L1 直接把不重要的特徵壓成 0,讓模型更精簡。
特徵彼此高度相關(像多重共線性) L2 把所有權重平均壓小,模型會更穩定不亂晃。
樣本少但特徵多(例如醫療資料、高維資料) L1 或 Elastic Net 可以選出真正有影響力的變數,同時避免過擬合。

模型穩定性與泛化能力

⇒ 在深度學習或連續預測任務裡,幾乎都用 L2(weight decay)


訓練與收斂特性

⇒ 因此在 GPU 上訓練大模型,L2 幾乎是標配
主流 LLM 微調(如 LLaMA、GPT、Mistral、Gemma 等)主要使用 L2 正則化


Powered by Forestry.md