MDP, Markov Decision Process

MDP, Markov Decision Process 是 RL, Reinforcement learning 的核心建模方式。
它用一組清楚的元素，描述「在環境中連續做決策」的問題

人工智慧｜馬可夫決策MDP過程基本概念詳解

MDP 是什麼

MDP = Markov Decision Process（馬可夫決策過程）

一個 MDP 通常寫成：

(S, A, P, R, γ)

$S$ ：狀態集合（State）
$A$ ：行動集合（Action）
$P (s^{'} | s, a)$ ：轉移機率（Transition）
$R (s, a)$ 或 $R (s, a, s^{'})$ ：獎勵函數（Reward）
$γ$ ：折扣因子（Discount Factor）

為什麼叫 Markov

Markov 的重點是：

未來只依賴「現在狀態」與「現在行動」，不需要完整過去歷史。

數學寫法：

P (s_{t + 1} ∣ s_{t}, a_{t}, history) = P (s_{t + 1} ∣ s_{t}, a_{t})

這個假設讓問題可被計算與學習。

為什麼 RL 要用 MDP

RL 要解的問題是：

每一步行動都會影響下一步
獎勵可能延遲出現
目標是最大化長期累積回報

MDP 剛好把這些因素都明確表示出來，
所以像 Reading/Artificial Intelligence/Reinforcement Learning/Q-Learning、DQN, Deep Q Network 這類方法都建立在 MDP 框架上。

直覺例子（走迷宮）

狀態 $s$ ：你目前在迷宮的位置
行動 $a$ ：上、下、左、右
轉移 $P$ ：走一步後到哪個格子（可能有隨機性）
獎勵 $R$ ：到終點 +10、撞牆 -1、每走一步 -0.1
折扣 $γ$ ：決定你重視眼前分數還是長期分數

與 Policy / Value 的關係

在 MDP 中，我們通常學兩種東西：

Policy $π (a | s)$ ：在狀態 $s$ 該怎麼選行動
Value / Q-value：該狀態或行動的長期價值

目標是找出最優策略 $π^{*}$ ，讓累積回報最大。

常見延伸

若環境狀態無法完全觀測，會變成 POMDP（部分可觀測 MDP）
實務上很多問題不完全滿足 Markov 假設，但 MDP 仍是很有效的近似模型

相關筆記

Powered by Forestry.md