mT5

mT5 的多語版本。mT5(multilingual T5)延續 T5 的 text-to-text 架構
把分類、摘要、翻譯、問答、改寫都統一成「輸入文字 -> 輸出文字」的形式

多語言、生成式


核心概念


模型大小

Model Params FP16 / BF16 權重大致大小 特性
google/mt5-small ~300M ~0.6 GB 最輕量,適合 baseline 與原型
google/mt5-base ~580M ~1.2 GB 成本與效果較平衡
google/mt5-large ~1.2B ~2.4 GB 品質通常更穩,訓練成本上升
google/mt5-xl ~3.7B ~7.4 GB 高品質,但部署門檻高
google/mt5-xxl ~13B ~26 GB 通常要多卡或量化
Note

上表只是在估模型權重本體,不包含 activation、batch、beam search、optimizer state。實際訓練與推論顯存通常會再高很多。


mT5 能做什麼


為什麼適合 Query Rewrite

mT5 本質上就是 seq2seq,因此很適合把不完整、口語化、依賴上下文的問句,改寫成較完整、可檢索的查詢。

Example

輸入:那 Costco 呢?

輸出:好市多可以使用 SEPower 開立發票嗎?


優點


限制


實務選型


與其他 Google T5 系列的差別


一句話判斷


結論

mT5 是 Google T5 家族中很實用的多語 seq2seq 模型。若任務重點是 中文或多語的 query rewrite、摘要、問答、分類,它是很合理的起點;如果要在效果與成本之間取平衡,通常先看 mt5-base,品質優先時再看 mt5-large


Reference

Powered by Forestry.md