DistilBERT

Sanh et al., HuggingFace, 2019 — arXiv:1910.01108

前身：BERT — 同期平行演進，與 ALBERT 解決不同問題

動機

BERT 在生產環境太慢、太大：

目標：不改訓練資料或任務，用 Knowledge Distillation 壓縮 BERT

用 BERT-base（teacher）蒸餾出 6 層的 DistilBERT（student）

損失函數三合一：

L = α · L_ce(soft labels)   # 學 teacher 的機率分布
  + β · L_mlm               # 原本的 MLM 損失
  + γ · L_cos                # 對齊 hidden state 方向

架構簡化：

→ ELECTRA：更根本地提高預訓練效率，小模型也能表現好