RL, Reinforcement learning

RL, Reinforcement learning 是一種「透過互動學習」的方法
代理(Agent)透過與環境互動,根據回饋/獎勵機制不斷更新策略,目標是最大化累積獎勵

Agent 不直接拿到標準答案,而是在環境中嘗試行動,
根據回饋的 Reward 來學習長期最好的決策策略。


MDP 基本元素

強化學習常建模為 MDP, Markov Decision Process


學習目標

RL 的目標不是只拿到當下獎勵,而是最大化「長期累積回報」

基於回饋(反饋)機制的學習方法
代理會透過**試錯學習(Trial-and-Error)**調整策略,追求長期最佳效益

常見寫法:

Gt=k=0γkrt+k+1

探索 vs 利用

RL 核心難點之一是平衡:

如果只利用,容易卡在次佳解;
如果只探索,學習效率會很差。


常見方法家族

1) Value-based

學習狀態價值或動作價值(例如 Q(s,a)),再依價值選行動。

2) Policy-based

直接學習 policy(輸入狀態,直接輸出行動機率)。
通常在連續控制問題很常見。

3) Actor-Critic

結合 value-based 與 policy-based:


一般訓練流程


常見挑戰


應用場景


與你的其他筆記關聯

Powered by Forestry.md