DQN, Deep Q Network

RL, Reinforcement learning
建模為一個 MDP, Markov Decision Process

[魔法陣系列] Deep Q Network(DQN)之術式解析 - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天

技術 目的
Experience Replay 提升穩定性
Target Network 避免震盪

DQN 的創建動機:
Reading/Artificial Intelligence/Reinforcement Learning/Q-Learning] 在狀態空間一大時,Q-table 無法存、也學不動;
專門用來處理高維狀態(例如影像)時 Q-table 無法擴展的問題

DQN 以神經網路取代表格,輸入狀態 s,輸出所有動作的 Q(s,a)

[RL] Q learning 與 Deep Q Network(DQN) - HackMD


第二部:《深度學習》84/100 📌Deep Q-Network (DQN) 🎲 結合深度學習的強化學習典範!


核心

DQN 常搭配兩個技巧:


Experience Replay

訓練時不是只用最新資料,而是:

從 Replay Buffer 隨機抽取過去經驗來訓練

作用:


Target Network

目的:避免訓練時一直震盪

做法:使用兩個網路

Target Network 不會每一步更新,只會隔一段時間同步一次,因此目標值比較穩定。

Powered by Forestry.md