Evaluation Matrix
回歸
回歸模型用來預測連續數值
評估 -> 預測值 & 實際值 的差異
- 均方誤差 (MSE):計算預測值與實際值的平方誤差平均,誤差越大,MSE值越大
- 均方根誤差 (RMSE):MSE的平方根,能更直觀地反映預測誤差的大小,單位與目標變數相同
- 平均絕對誤差 (MAE):計算預測值與實際值的絕對誤差平均,更強調大誤差的影響
- R平方 (R²):衡量模型解釋變異的比例,1表示模型完美預測,0表示模型無法解釋變異
分類
類別通常可以分為:
- True Positive (TP):正確預測為正例的數量,例如實際是貓的圖片被正確分類為貓
- False Positive (FP):錯誤預測為正例的數量,例如實際是狗的圖片被錯誤分類為貓
- True Negative (TN):正確預測為負例的數量,例如實際是狗的圖片被正確分類為非貓
- False Negative (FN):錯誤預測為負例的數量,例如實際是貓的圖片被錯誤分類為非貓
多分類指標
- micro-F1:假設總共有100張圖片,無論是貓、狗或鳥,計算所有正確和錯誤分類的結果
- macro-F1:如果有貓、狗、鳥三個類別,分別計算每個類別的F1分數,再取平均
- weighted-F1:如果貓的圖片較多,狗、鳥的圖片較少,則根據每個類別的圖片數量加權計算F1分數
文本評估
- BLEU
- ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
- BERTScore
- 編輯距離(Edit Distance / Levenshtein Distance)
- 定義:計算將一個字串轉換成另一個字串所需的最小編輯操作數(插入、刪除或替換)
- Hamming 距離
- 計算兩個等長字串中不同字符的個數
- 缺點:換位子但是沒有不一樣不好判斷