Token

AI 讀取的每個資訊都是數字,有兩個概念 Token ID, Embedding 向量

文本 Token Embedding.png

所謂的 Token 就是模型讀取的最小單位
是模型輸出和輸入的方式,我們透過自然語言輸入的內容模型其實看不懂,模型所理解的是一串數字,所以必須先透過 Tokenizier(分詞器) 先進行翻譯

GPT-4o & GPT-4o mini 分詞器

原文:
你好,我是一個工程師
未來想做AI工程師

以下的 Tokens 為 15 , Characters 為 23
仔細看可以發現是以一組一組為單位的 Token
Text Token Example ..png

而模型理解的是這樣一段數字
包含標點符號都有可能被認為是 Tokens
Token IDs Example.png

圖示:輸入序列在預測下一個 TokenID
Token 的圖示.png
OpenAI Platform - Learn about language model tokenization

⇒ 為什麼不是每一個字都拆解出來?
一句話太長,成本太高!但是不會有不認識的詞語了

Token 分節.png

不過還是可以根據不同模型的專任去改變,例如:


但若有語意問題呢?
Embedding (嵌入) 這就是 AI 理解世界的方式


理解透这两个基本概念,你看所有AI都将豁然开朗 - YouTube

Powered by Forestry.md