MDP, Markov Decision Process

MDP, Markov Decision ProcessRL, Reinforcement learning 的核心建模方式。
它用一組清楚的元素,描述「在環境中連續做決策」的問題

人工智慧|馬可夫決策MDP過程基本概念詳解


MDP 是什麼

MDP = Markov Decision Process(馬可夫決策過程)

一個 MDP 通常寫成:

(S,A,P,R,γ)

為什麼叫 Markov

Markov 的重點是:

未來只依賴「現在狀態」與「現在行動」,不需要完整過去歷史。

數學寫法:

P(st+1st,at,history)=P(st+1st,at)

這個假設讓問題可被計算與學習。


為什麼 RL 要用 MDP

RL 要解的問題是:

MDP 剛好把這些因素都明確表示出來,
所以像 Reading/Artificial Intelligence/Reinforcement Learning/Q-LearningDQN, Deep Q Network 這類方法都建立在 MDP 框架上。


直覺例子(走迷宮)


與 Policy / Value 的關係

在 MDP 中,我們通常學兩種東西:

目標是找出最優策略 π,讓累積回報最大。


常見延伸


相關筆記

Powered by Forestry.md