RoBERTa

Robustly optimized BERT pretraining approach
Liu et al., Meta AI, 2019 — arXiv:1907.11692

前身:BERT


動機

BERT 是「訓練不足」的:


方法(改動 BERT 的 4 個地方)

改動 原始 BERT RoBERTa
預訓練資料 16GB 160GB(加 CC-News、OpenWebText、Stories)
Batch size 256 8,192
NSP 移除
Masking 靜態(固定) 動態(每次 forward 重新 mask)

結論:這些都是工程改動,沒有架構變化。


優點 / 缺點

說明
在 GLUE / SQuAD 全面超越 BERT
驗證 NSP 沒有幫助(影響後續設計)
改動簡單,可直接套用
訓練成本更高(160GB 資料、大 batch)
架構沒創新,只是「訓練得更好的 BERT」

下一個演進


References

Powered by Forestry.md