Unsupervised Learning (非監督式學習)

非監督式學習(Unsupervised Learning)是指在沒有標籤資料的情況下,
從資料中學習結構、分布或**潛在表示(latent representation)**的機器學習方法。

監督式與非監督式學習 - 機器學習演算法之間的區別 - AWS


What Is Unsupervised Learning?

Supervised Learning (監督式學習) 是從 x -> y 學輸入與答案的對應,
那非監督式學習更像是在問:

因此它常被用來做探索資料(exploratory analysis),或當成後續任務前的表示學習 / 前處理


常見任務

  1. Clustering(分群)

    • 目標:把相似的資料自動分到同一群
    • 例子:使用者分群、商品分群、文件主題分群
    • 常見方法:K-means、Hierarchical Clustering、DBSCAN
  2. Dimensionality Reduction(降維)

    • 目標:把高維資料壓縮成低維表示,同時盡量保留重要資訊
    • 用途:視覺化、壓縮、去雜訊、特徵抽取
    • 常見方法:PCA、t-SNE、UMAP、Auto-Encoder (自編碼器)
    • 補充:
      • PCA 偏向線性降維
      • t-SNE、UMAP 更常用於高維資料的視覺化,不一定適合作為通用特徵壓縮方法
  3. Anomaly Detection(異常偵測)

    • 目標:找出和大多數資料分布差很多的樣本
    • 例子:詐欺交易、設備故障、入侵偵測、醫療影像中的異常區域
    • 補充:異常偵測不一定全屬於 unsupervised,也常以 semi-supervised 方式實作,例如只用正常資料建模
  4. Density Estimation(密度估計)

    • 目標:學習資料本身的機率分布
    • 用途:生成模型、likelihood estimation、異常偵測
    • 常見方法:Gaussian Mixture Model(GMM)、Kernel Density Estimation、VAE, Variational Autoencoder

核心特徵


Representation Learning

非監督式學習的一個重要目的,是學到可重用的表示(representation)

x -> encoder -> z

其中 z 可以視為資料的 latent representation。
這種表示之後可被用在:

典型例子:

Note

Auto-Encoder (自編碼器) 常被放在廣義的非監督式學習中介紹,
但若從訓練訊號來看,它也常被歸到 self-supervised learning,因為重建目標是由輸入本身產生。


與監督式學習的差異

類型 監督式學習 非監督式學習
資料形式 有標籤資料 無標籤資料
目標 預測答案 發現結構或表示
常見任務 分類、回歸 分群、降維、密度估計、異常偵測
評估方式 Accuracy、F1、MSE 等 群內距離、重建誤差、視覺化、下游效果

典型例子

Example

一批顧客資料沒有「高價值客戶 / 低價值客戶」標籤
這時無法直接做分類,但可以先用分群方法把顧客自動分成幾類,
再觀察各群特徵,例如:

  • 高消費、低頻率
  • 低消費、高頻率
  • 新客戶、尚未形成穩定行為
Example

一張很高維的圖片或文字向量,可以先做降維,
把資料壓到較小的表示空間中,方便視覺化、壓縮或交給 Embedding (嵌入) / 下游模型使用。


什麼時候適合用


小結

Summary

非監督式學習的重點不是直接預測答案,而是從資料中找出「資料本身的組織方式」。
常見四個方向:

  • 分群:找相似群體
  • 降維:保留主要資訊並壓縮表示
  • 密度估計:學習資料分布
  • 異常偵測:找出偏離整體分布的樣本
Powered by Forestry.md