mT5

mT5 的多語版本。mT5（multilingual T5）延續 T5 的 text-to-text 架構
把分類、摘要、翻譯、問答、改寫都統一成「輸入文字 -> 輸出文字」的形式

多語言、生成式

核心概念

多語言預訓練
- mT5 在 101 種語言上做 pretraining，中文、英文、日文都在範圍內。
Encoder-decoder / seq2seq
- 不只是理解文字，也能直接產生答案、摘要、改寫後句子。
Task unification
- classification、Query Rewrite、summarization、QA、translation 都能用同一種 text-to-text 格式處理。
Cross-lingual transfer
- 某些任務可以用高資源語言的資料幫助其他語言。

Model	Params	FP16 / BF16 權重大致大小	特性
`google/mt5-small`	~300M	~0.6 GB	最輕量，適合 baseline 與原型
`google/mt5-base`	~580M	~1.2 GB	成本與效果較平衡
`google/mt5-large`	~1.2B	~2.4 GB	品質通常更穩，訓練成本上升
`google/mt5-xl`	~3.7B	~7.4 GB	高品質，但部署門檻高
`google/mt5-xxl`	~13B	~26 GB	通常要多卡或量化

Note

上表只是在估模型權重本體，不包含 activation、batch、beam search、optimizer state。實際訓練與推論顯存通常會再高很多。

mT5 本質上就是 seq2seq，因此很適合把不完整、口語化、依賴上下文的問句，改寫成較完整、可檢索的查詢。

Example

輸入：那 Costco 呢？

輸出：好市多可以使用 SEPower 開立發票嗎？

不是 instruction-tuned
- 原始 mT5 比較像 pretrained model，不像 Flan-T5 那樣擅長直接 obey prompt。
- 所以 zero-shot 能用，但穩定性通常不如 instruction model。
分類與檢索效率不一定最好
- 如果任務只是分類、embedding、retrieval、reranking，encoder-only 模型常更便宜。
中文任務不一定贏中文專用模型
- 如果資料非常在地、術語很重，中文專用模型可能更強。
Accidental translation
- 多語生成時，輸出偶爾會飄到其他語言。

mT5
- 基礎架構來源，偏英文。
mT5
- 多語版 T5，適合中文、英文、多語混合任務。
ByT5
- byte-level 表示，對 typo、OCR noise、特殊符號更穩，但通常更慢。
Flan-T5
- instruction-tuned，zero-shot / few-shot prompt following 更好，但不是以多語為核心。

mT5 是 Google T5 家族中很實用的多語 seq2seq 模型。若任務重點是 中文或多語的 query rewrite、摘要、問答、分類，它是很合理的起點；如果要在效果與成本之間取平衡，通常先看 mt5-base，品質優先時再看 mt5-large。