Q-Learning
為一種 RL, Reinforcement learning
透過記錄學習過的策略,來告訴智能體(Agent),什麼情況下要對應採取什麼行動(Action)會得到最大的講獎勵 (Reward),對應行動的獎勵值存在一個Q表中(Q-table)。
而 Q-table 就是一個查詢表,計算某狀態下做某行為後未來可以期望得到最大的 Reward 為多少,推倒我們選出每個狀態(state)下,最好的行為(Action)。
Q 值表示行動的長期價值,並透過試錯學習逐步找到可獲得最大獎勵的最佳行動
【QA】什麼是強化學習中的Q learning演算法? - Cupoy
Q Learning是一種基於價值的強化學習方法,其核心是學習一個價值函數
[RL] Q learning 與 Deep Q Network(DQN) - HackMD
使用深度神經網路近似 Q 值,以解決傳統 Q-Learning 在高維度環境中的限制
狀態空間一大時,Q-table 無法存、也學不動 ⇒ DQN, Deep Q Network