Unsupervised Learning (非監督式學習)
非監督式學習(Unsupervised Learning)是指在沒有標籤資料的情況下,
從資料中學習結構、分布或**潛在表示(latent representation)**的機器學習方法。
監督式與非監督式學習 - 機器學習演算法之間的區別 - AWS
What Is Unsupervised Learning?
若 Supervised Learning (監督式學習) 是從 x -> y 學輸入與答案的對應,
那非監督式學習更像是在問:
- 這批資料能不能自然分成幾群?
- 高維資料能不能壓縮成較低維的表示?
- 有沒有樣本明顯偏離整體分布?
- 資料背後是否存在可重用的 latent representation?
因此它常被用來做探索資料(exploratory analysis),或當成後續任務前的表示學習 / 前處理。
常見任務
-
Clustering(分群)
- 目標:把相似的資料自動分到同一群
- 例子:使用者分群、商品分群、文件主題分群
- 常見方法:K-means、Hierarchical Clustering、DBSCAN
-
Dimensionality Reduction(降維)
- 目標:把高維資料壓縮成低維表示,同時盡量保留重要資訊
- 用途:視覺化、壓縮、去雜訊、特徵抽取
- 常見方法:PCA、t-SNE、UMAP、Auto-Encoder (自編碼器)
- 補充:
- PCA 偏向線性降維
- t-SNE、UMAP 更常用於高維資料的視覺化,不一定適合作為通用特徵壓縮方法
-
Anomaly Detection(異常偵測)
- 目標:找出和大多數資料分布差很多的樣本
- 例子:詐欺交易、設備故障、入侵偵測、醫療影像中的異常區域
- 補充:異常偵測不一定全屬於 unsupervised,也常以 semi-supervised 方式實作,例如只用正常資料建模
-
Density Estimation(密度估計)
- 目標:學習資料本身的機率分布
- 用途:生成模型、likelihood estimation、異常偵測
- 常見方法:Gaussian Mixture Model(GMM)、Kernel Density Estimation、VAE, Variational Autoencoder
核心特徵
- 沒有標註答案:資料通常只有輸入,沒有正確輸出可直接對照
- 偏向發現結構:模型關心的是資料之間的距離、密度、分布與潛在空間
- 常作為前處理:可先抽出較好的表示,再接到分類、檢索或推薦系統
- 評估較困難:因為沒有標準答案,常需要搭配視覺化、業務指標或下游任務效果判斷
Representation Learning
非監督式學習的一個重要目的,是學到可重用的表示(representation):
x -> encoder -> z
其中 z 可以視為資料的 latent representation。
這種表示之後可被用在:
- classification
- retrieval
- recommendation
- clustering
典型例子:
- Word2Vec
- Auto-Encoder (自編碼器)
- contrastive learning
Auto-Encoder (自編碼器) 常被放在廣義的非監督式學習中介紹,
但若從訓練訊號來看,它也常被歸到 self-supervised learning,因為重建目標是由輸入本身產生。
與監督式學習的差異
| 類型 | 監督式學習 | 非監督式學習 |
|---|---|---|
| 資料形式 | 有標籤資料 | 無標籤資料 |
| 目標 | 預測答案 | 發現結構或表示 |
| 常見任務 | 分類、回歸 | 分群、降維、密度估計、異常偵測 |
| 評估方式 | Accuracy、F1、MSE 等 | 群內距離、重建誤差、視覺化、下游效果 |
典型例子
一批顧客資料沒有「高價值客戶 / 低價值客戶」標籤
這時無法直接做分類,但可以先用分群方法把顧客自動分成幾類,
再觀察各群特徵,例如:
- 高消費、低頻率
- 低消費、高頻率
- 新客戶、尚未形成穩定行為
一張很高維的圖片或文字向量,可以先做降維,
把資料壓到較小的表示空間中,方便視覺化、壓縮或交給 Embedding (嵌入) / 下游模型使用。
什麼時候適合用
- 手上資料很多,但幾乎沒有標籤
- 尚在探索資料,不確定有哪些模式
- 想先做特徵壓縮、表示學習、去雜訊
- 想先把資料分群,再交給人工命名或後續監督式模型
小結
非監督式學習的重點不是直接預測答案,而是從資料中找出「資料本身的組織方式」。
常見四個方向:
- 分群:找相似群體
- 降維:保留主要資訊並壓縮表示
- 密度估計:學習資料分布
- 異常偵測:找出偏離整體分布的樣本