Unsupervised Learning (非監督式學習)

非監督式學習（Unsupervised Learning）是指在沒有標籤資料的情況下，
從資料中學習結構、分布或**潛在表示（latent representation）**的機器學習方法。

What Is Unsupervised Learning?

若 Supervised Learning (監督式學習) 是從 x -> y 學輸入與答案的對應，
那非監督式學習更像是在問：

因此它常被用來做探索資料（exploratory analysis），或當成後續任務前的表示學習 / 前處理。

Clustering（分群）
- 目標：把相似的資料自動分到同一群
- 例子：使用者分群、商品分群、文件主題分群
- 常見方法：K-means、Hierarchical Clustering、DBSCAN
Dimensionality Reduction（降維）
- 目標：把高維資料壓縮成低維表示，同時盡量保留重要資訊
- 用途：視覺化、壓縮、去雜訊、特徵抽取
- 常見方法：PCA、t-SNE、UMAP、Auto-Encoder (自編碼器)
- 補充：
  - PCA 偏向線性降維
  - t-SNE、UMAP 更常用於高維資料的視覺化，不一定適合作為通用特徵壓縮方法
Anomaly Detection（異常偵測）
- 目標：找出和大多數資料分布差很多的樣本
- 例子：詐欺交易、設備故障、入侵偵測、醫療影像中的異常區域
- 補充：異常偵測不一定全屬於 unsupervised，也常以 semi-supervised 方式實作，例如只用正常資料建模
Density Estimation（密度估計）
- 目標：學習資料本身的機率分布
- 用途：生成模型、likelihood estimation、異常偵測
- 常見方法：Gaussian Mixture Model（GMM）、Kernel Density Estimation、VAE, Variational Autoencoder

非監督式學習的一個重要目的，是學到可重用的表示（representation）：

x -> encoder -> z

其中 z 可以視為資料的 latent representation。
這種表示之後可被用在：

典型例子：

Note

Auto-Encoder (自編碼器) 常被放在廣義的非監督式學習中介紹，
但若從訓練訊號來看，它也常被歸到 self-supervised learning，因為重建目標是由輸入本身產生。

Example

一批顧客資料沒有「高價值客戶 / 低價值客戶」標籤
這時無法直接做分類，但可以先用分群方法把顧客自動分成幾類，
再觀察各群特徵，例如：

Example

一張很高維的圖片或文字向量，可以先做降維，
把資料壓到較小的表示空間中，方便視覺化、壓縮或交給 Embedding (嵌入) / 下游模型使用。

Summary

非監督式學習的重點不是直接預測答案，而是從資料中找出「資料本身的組織方式」。
常見四個方向：