Token

AI 讀取的每個資訊都是數字，有兩個概念 Token ID, Embedding 向量

文本 Token Embedding.png

所謂的 Token 就是模型讀取的最小單位
是模型輸出和輸入的方式，我們透過自然語言輸入的內容模型其實看不懂，模型所理解的是一串數字，所以必須先透過 Tokenizier(分詞器) 先進行翻譯

GPT-4o & GPT-4o mini 分詞器

原文：
你好，我是一個工程師
未來想做AI工程師

以下的 Tokens 為 15 , Characters 為 23
仔細看可以發現是以一組一組為單位的 Token
Text Token Example ..png

而模型理解的是這樣一段數字
包含標點符號都有可能被認為是 Tokens
Token IDs Example.png

圖示：輸入序列在預測下一個 TokenID
Token 的圖示.png
OpenAI Platform - Learn about language model tokenization

⇒ 為什麼不是每一個字都拆解出來？
一句話太長，成本太高！但是不會有不認識的詞語了

Token 分節.png

不過還是可以根據不同模型的專任去改變，例如：

GPT-4 為了程式碼，會將 4 個空格視為一個 Token
DeepSeek Coder 會將數字的規律都將數字變成字節（個位數）開始學
ChatGPT 聊天機器人會加上 <|user|>, <|assistatn|> 用於判斷哪個是用戶輸入和輸出

但若有語意問題呢？
⇒ Embedding (嵌入) 這就是 AI 理解世界的方式

理解透这两个基本概念，你看所有AI都将豁然开朗 - YouTube

Powered by Forestry.md