DQN, Deep Q Network
在 RL, Reinforcement learning 中
建模為一個 MDP, Markov Decision Process:
- Agent:學習與決策的主體
- Environment:外在世界
- State:環境在當下的狀態
[魔法陣系列] Deep Q Network(DQN)之術式解析 - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天
| 技術 | 目的 |
|---|---|
| Experience Replay | 提升穩定性 |
| Target Network | 避免震盪 |
DQN 的創建動機:
Reading/Artificial Intelligence/Reinforcement Learning/Q-Learning] 在狀態空間一大時,Q-table 無法存、也學不動;
專門用來處理高維狀態(例如影像)時 Q-table 無法擴展的問題
⇒ DQN 以神經網路取代表格,輸入狀態
[RL] Q learning 與 Deep Q Network(DQN) - HackMD
第二部:《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範!
核心
DQN 常搭配兩個技巧:
- Experience Replay:隨機抽過去經驗來訓練
- Target Network:用另一個「較穩定的網路」來算目標值
Experience Replay
訓練時不是只用最新資料,而是:
從 Replay Buffer 隨機抽取過去經驗來訓練
作用:
- 打破資料的時間相關性
- 同一筆資料可以重複利用
- 讓訓練更穩定
Target Network
目的:避免訓練時一直震盪
做法:使用兩個網路
- Q Network:負責訓練
- Target Network:負責計算 target
Target Network 不會每一步更新,只會隔一段時間同步一次,因此目標值比較穩定。