RoBERTa

Robustly optimized BERT pretraining approach
Liu et al., Meta AI, 2019 — arXiv:1907.11692

前身：BERT

動機

BERT 是「訓練不足」的：

預訓練 epoch 數太少
batch size 太小
資料量不夠（只用 16GB）
NSP 任務被質疑是否真的有幫助
masking 是靜態的（每個 epoch 看到一樣的 mask）

方法（改動 BERT 的 4 個地方）

改動	原始 BERT	RoBERTa
預訓練資料	16GB	160GB（加 CC-News、OpenWebText、Stories）
Batch size	256	8,192
NSP	有	移除
Masking	靜態（固定）	動態（每次 forward 重新 mask）

結論：這些都是工程改動，沒有架構變化。

優點 / 缺點

	說明
✅	在 GLUE / SQuAD 全面超越 BERT
✅	驗證 NSP 沒有幫助（影響後續設計）
✅	改動簡單，可直接套用
❌	訓練成本更高（160GB 資料、大 batch）
❌	架構沒創新，只是「訓練得更好的 BERT」

下一個演進

參數效率問題 → ALBERT（相同效果，大幅減少參數）
生產部署速度問題 → DistilBERT（知識蒸餾）
MLM 訓練效率問題 → ELECTRA（replaced token detection）

References

Powered by Forestry.md