Q-Learning

為一種 RL, Reinforcement learning
透過記錄學習過的策略,來告訴智能體(Agent),什麼情況下要對應採取什麼行動(Action)會得到最大的講獎勵 (Reward),對應行動的獎勵值存在一個Q表中(Q-table)。

Q-table 就是一個查詢表,計算某狀態下做某行為後未來可以期望得到最大的 Reward 為多少,推倒我們選出每個狀態(state)下,最好的行為(Action)。

Q 值表示行動的長期價值,並透過試錯學習逐步找到可獲得最大獎勵的最佳行動

【QA】什麼是強化學習中的Q learning演算法? - Cupoy


Q Learning是一種基於價值的強化學習方法,其核心是學習一個價值函數 Q(s,a),代表在狀態 s 下執行行動 a 所期望的未來獎勵,通過以下更新規則來學習:

Q(s,a)Q(s,a)+α[R(s,a)+γmaxaQ(s,a)Q(s,a)]

[RL] Q learning 與 Deep Q Network(DQN) - HackMD


使用深度神經網路近似 Q 值,以解決傳統 Q-Learning 在高維度環境中的限制
狀態空間一大時,Q-table 無法存、也學不動 ⇒ DQN, Deep Q Network


Powered by Forestry.md