MDP to Q-Learning to DQN (對照表)

這頁用來快速對照:


一眼看懂

面向 MDP Q-Learning DQN
角色 問題定義框架 傳統 value-based 演算法 深度 value-based 演算法
核心想法 定義 S,A,P,R,γ 用 Q-table 學 Q(s,a) 用神經網路近似 Q(s,a)
狀態空間 任意(抽象定義) 小到中等(離散較佳) 高維連續(如影像)
動作空間 任意(抽象定義) 常見離散動作 常見離散動作
主要更新 無(是建模) Bellman update TD target + neural net 反向傳播
穩定技巧 epsilon-greedy Experience Replay + Target Network
常見限制 需符合 Markov 假設 Q-table 爆炸、泛化差 訓練不穩、需要大量資料與調參

公式對照

MDP(目標)

最大化長期回報:

Gt=k=0γkrt+k+1

Q-Learning(表格更新)

Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]

DQN(神經網路目標)

y=r+γmaxaQtarget(s,a)

最小化:

L(θ)=(yQonline(s,a;θ))2

演進關係


什麼時候用哪個


常見誤區


相關筆記

Powered by Forestry.md