Q-Learning

為一種 RL, Reinforcement learning
透過記錄學習過的策略，來告訴智能體(Agent)，什麼情況下要對應採取什麼行動(Action)會得到最大的講獎勵 (Reward)，對應行動的獎勵值存在一個Ｑ表中(Q-table)。

而 Q-table 就是一個查詢表，計算某狀態下做某行為後未來可以期望得到最大的 Reward 為多少，推倒我們選出每個狀態(state)下，最好的行為（Action）。

Q 值表示行動的長期價值，並透過試錯學習逐步找到可獲得最大獎勵的最佳行動

Q Learning是一種基於價值的強化學習方法，其核心是學習一個價值函數 $Q (s, a)$ ，代表在狀態 $s$ 下執行行動 $a$ 所期望的未來獎勵，通過以下更新規則來學習：

Q (s, a) \leftarrow Q (s, a) + α [R (s, a) + γ max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a)]

使用深度神經網路近似 Q 值，以解決傳統 Q-Learning 在高維度環境中的限制
狀態空間一大時，Q-table 無法存、也學不動 ⇒ DQN, Deep Q Network