MDP, Markov Decision Process
MDP, Markov Decision Process 是 RL, Reinforcement learning 的核心建模方式。
它用一組清楚的元素,描述「在環境中連續做決策」的問題
MDP 是什麼
MDP = Markov Decision Process(馬可夫決策過程)
一個 MDP 通常寫成:
:狀態集合(State) :行動集合(Action) :轉移機率(Transition) 或 :獎勵函數(Reward) :折扣因子(Discount Factor)
為什麼叫 Markov
Markov 的重點是:
未來只依賴「現在狀態」與「現在行動」,不需要完整過去歷史。
數學寫法:
這個假設讓問題可被計算與學習。
為什麼 RL 要用 MDP
RL 要解的問題是:
- 每一步行動都會影響下一步
- 獎勵可能延遲出現
- 目標是最大化長期累積回報
MDP 剛好把這些因素都明確表示出來,
所以像 Reading/Artificial Intelligence/Reinforcement Learning/Q-Learning、DQN, Deep Q Network 這類方法都建立在 MDP 框架上。
直覺例子(走迷宮)
- 狀態
:你目前在迷宮的位置 - 行動
:上、下、左、右 - 轉移
:走一步後到哪個格子(可能有隨機性) - 獎勵
:到終點 +10、撞牆 -1、每走一步 -0.1 - 折扣
:決定你重視眼前分數還是長期分數
與 Policy / Value 的關係
在 MDP 中,我們通常學兩種東西:
- Policy
:在狀態 該怎麼選行動 - Value / Q-value:該狀態或行動的長期價值
目標是找出最優策略
常見延伸
- 若環境狀態無法完全觀測,會變成 POMDP(部分可觀測 MDP)
- 實務上很多問題不完全滿足 Markov 假設,但 MDP 仍是很有效的近似模型