MDP to Q-Learning to DQN (對照表)

這頁用來快速對照：

一眼看懂

面向	MDP	Q-Learning	DQN
角色	問題定義框架	傳統 value-based 演算法	深度 value-based 演算法
核心想法	定義 $S, A, P, R, γ$	用 Q-table 學 $Q (s, a)$	用神經網路近似 $Q (s, a)$
狀態空間	任意（抽象定義）	小到中等（離散較佳）	高維連續（如影像）
動作空間	任意（抽象定義）	常見離散動作	常見離散動作
主要更新	無（是建模）	Bellman update	TD target + neural net 反向傳播
穩定技巧	無	epsilon-greedy	Experience Replay + Target Network
常見限制	需符合 Markov 假設	Q-table 爆炸、泛化差	訓練不穩、需要大量資料與調參

最大化長期回報：

G_{t} = \sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1}

Q (s, a) \leftarrow Q (s, a) + α [r + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a)]

y = r + γ max_{a^{'}} Q_{t a r g e t} (s^{'}, a^{'})

最小化：

L (θ) = {(y - Q_{o n l i n e} (s, a; θ))}^{2}