Evaluation Matrix

回歸

回歸模型用來預測連續數值
評估 -> 預測值 & 實際值 的差異

均方誤差 (MSE)：計算預測值與實際值的平方誤差平均，誤差越大，MSE值越大
均方根誤差 (RMSE)：MSE的平方根，能更直觀地反映預測誤差的大小，單位與目標變數相同
平均絕對誤差 (MAE)：計算預測值與實際值的絕對誤差平均，更強調大誤差的影響
R平方 (R²)：衡量模型解釋變異的比例，1表示模型完美預測，0表示模型無法解釋變異

分類

類別通常可以分為：

True Positive (TP)：正確預測為正例的數量，例如實際是貓的圖片被正確分類為貓
False Positive (FP)：錯誤預測為正例的數量，例如實際是狗的圖片被錯誤分類為貓
True Negative (TN)：正確預測為負例的數量，例如實際是狗的圖片被正確分類為非貓
False Negative (FN)：錯誤預測為負例的數量，例如實際是貓的圖片被錯誤分類為非貓

多分類指標

micro-F1：假設總共有100張圖片，無論是貓、狗或鳥，計算所有正確和錯誤分類的結果
macro-F1：如果有貓、狗、鳥三個類別，分別計算每個類別的F1分數，再取平均
weighted-F1：如果貓的圖片較多，狗、鳥的圖片較少，則根據每個類別的圖片數量加權計算F1分數

文本評估

BLEU
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）
BERTScore
編輯距離（Edit Distance / Levenshtein Distance）
- 定義：計算將一個字串轉換成另一個字串所需的最小編輯操作數（插入、刪除或替換）
Hamming 距離
- 計算兩個等長字串中不同字符的個數
- 缺點：換位子但是沒有不一樣不好判斷

Powered by Forestry.md