Min-Max Scaling (最小-最大標準化)
Min-Max Scaling (最小-最大標準化) 是 Feature Scaling (特徵縮放) 的常見方法之一,
會把特徵值線性映射到固定範圍(通常是 0 到 1)
公式
最常見的區間是 [0, 1]:
如果要縮放到 [a, b]:
:原始值 :訓練資料中的最小值 :訓練資料中的最大值
直覺理解
- 最小值會變成 0
- 最大值會變成 1
- 其他值按比例落在中間
所以它保留大小順序,但不會改成常態分佈。
例子
原始資料:[10, 15, 20, 25]
縮放後約為:
- 10 -> 0
- 15 -> 0.33
- 20 -> 0.67
- 25 -> 1.00
什麼時候適合用
- 特徵範圍差異很大時
- 依賴距離的模型(例如 KNN、K-means、SVM)
- 神經網路希望輸入落在固定範圍時
優點與限制
-
優點
- 計算簡單、速度快
- 輸出範圍固定,便於模型訓練
- 不改變樣本間的相對順序
-
限制
- 對離群值敏感,容易壓縮其他資料
- 新資料超過訓練時範圍,可能出現 <0 或 >1
與 Standardization 的差異
- Min-Max Scaling:壓到固定區間(常見 [0,1])
- Standardization:轉成均值 0、標準差 1
若離群值很多,通常會優先考慮 Standardization 或 Robust Scaling。
實務注意
- 只用訓練集計算
min/max - 驗證集、測試集要套用同一組參數
- 不要在整份資料上先算
min/max,避免資料洩漏(data leakage)