DQN, Deep Q Network

在 RL, Reinforcement learning 中
建模為一個 MDP, Markov Decision Process：

Agent：學習與決策的主體
Environment：外在世界
State：環境在當下的狀態

[魔法陣系列] Deep Q Network（DQN）之術式解析 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

技術	目的
Experience Replay	提升穩定性
Target Network	避免震盪

DQN 的創建動機：
Reading/Artificial Intelligence/Reinforcement Learning/Q-Learning] 在狀態空間一大時，Q-table 無法存、也學不動；
專門用來處理高維狀態（例如影像）時 Q-table 無法擴展的問題

⇒ DQN 以神經網路取代表格，輸入狀態 $s$ ，輸出所有動作的 $Q (s, a)$

[RL] Q learning 與 Deep Q Network(DQN) - HackMD

第二部：《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範！

核心

DQN 常搭配兩個技巧：

Experience Replay：隨機抽過去經驗來訓練
Target Network：用另一個「較穩定的網路」來算目標值

Experience Replay

訓練時不是只用最新資料，而是：

從 Replay Buffer 隨機抽取過去經驗來訓練

作用：

打破資料的時間相關性
同一筆資料可以重複利用
讓訓練更穩定

Target Network

目的：避免訓練時一直震盪

做法：使用兩個網路

Q Network：負責訓練
Target Network：負責計算 target

Target Network 不會每一步更新，只會隔一段時間同步一次，因此目標值比較穩定。

Powered by Forestry.md