RoBERTa
Robustly optimized BERT pretraining approach
Liu et al., Meta AI, 2019 — arXiv:1907.11692
前身:BERT
動機
BERT 是「訓練不足」的:
- 預訓練 epoch 數太少
- batch size 太小
- 資料量不夠(只用 16GB)
- NSP 任務被質疑是否真的有幫助
- masking 是靜態的(每個 epoch 看到一樣的 mask)
方法(改動 BERT 的 4 個地方)
| 改動 | 原始 BERT | RoBERTa |
|---|---|---|
| 預訓練資料 | 16GB | 160GB(加 CC-News、OpenWebText、Stories) |
| Batch size | 256 | 8,192 |
| NSP | 有 | 移除 |
| Masking | 靜態(固定) | 動態(每次 forward 重新 mask) |
結論:這些都是工程改動,沒有架構變化。
優點 / 缺點
| 說明 | |
|---|---|
| ✅ | 在 GLUE / SQuAD 全面超越 BERT |
| ✅ | 驗證 NSP 沒有幫助(影響後續設計) |
| ✅ | 改動簡單,可直接套用 |
| ❌ | 訓練成本更高(160GB 資料、大 batch) |
| ❌ | 架構沒創新,只是「訓練得更好的 BERT」 |
下一個演進
- 參數效率問題 → ALBERT(相同效果,大幅減少參數)
- 生產部署速度問題 → DistilBERT(知識蒸餾)
- MLM 訓練效率問題 → ELECTRA(replaced token detection)