RL, Reinforcement learning

RL, Reinforcement learning 是一種「透過互動學習」的方法
代理（Agent）透過與環境互動，根據回饋／獎勵機制不斷更新策略，目標是最大化累積獎勵

Agent 不直接拿到標準答案，而是在環境中嘗試行動，
根據回饋的 Reward 來學習長期最好的決策策略。

MDP 基本元素

強化學習常建模為 MDP, Markov Decision Process：

Agent：做決策的人（或模型）
Environment：外部環境
State ( $s$ )：當下狀態
Action ( $a$ )：可採取的行動
Reward ( $r$ )：行動後得到的回饋
Policy ( $π$ )：在某狀態下如何選行動的規則

學習目標

RL 的目標不是只拿到當下獎勵，而是最大化「長期累積回報」

基於回饋（反饋）機制的學習方法
代理會透過**試錯學習（Trial-and-Error）**調整策略，追求長期最佳效益

常見寫法：

G_{t} = \sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1}

$G_{t}$ ：從時間點 $t$ 開始的累積回報
$γ$ ：折扣因子（0 到 1）
- 越接近 1：越重視長期
- 越接近 0：越重視短期

探索 vs 利用

RL 核心難點之一是平衡：

探索（Exploration）：嘗試新行動，找更好的策略
利用（Exploitation）：使用目前已知最佳行動

如果只利用，容易卡在次佳解；
如果只探索，學習效率會很差。

常見方法家族

1) Value-based

學習狀態價值或動作價值（例如 $Q (s, a)$ ），再依價值選行動。

代表方法Reading/Artificial Intelligence/Reinforcement Learning/Q-Learning]
高維狀態延伸：DQN, Deep Q Network

2) Policy-based

直接學習 policy（輸入狀態，直接輸出行動機率）。
通常在連續控制問題很常見。

3) Actor-Critic

結合 value-based 與 policy-based：

Actor 負責選行動
Critic 負責評估行動好壞

一般訓練流程

初始化 policy / value function
Agent 與環境互動，收集 $(s, a, r, s^{'})$
根據演算法更新參數
重複多個 episodes，直到表現收斂

常見挑戰

Reward 設計困難：獎勵錯了，模型可能學到錯誤行為
樣本效率低：需要大量互動資料
訓練不穩定：不同隨機種子結果可能差很多
Credit Assignment：很晚才出現獎勵，難追溯哪一步做對

應用場景

遊戲（Atari、圍棋）
機器人控制（走路、抓取）
推薦與廣告策略優化
資源調度與決策最佳化

與你的其他筆記關聯

獎勵設計：Reward
基礎 value-basedReading/Artificial Intelligence/Reinforcement Learning/Q-Learning]
深度 RL 入門：DQN, Deep Q Network

Powered by Forestry.md