RL, Reinforcement learning
RL, Reinforcement learning 是一種「透過互動學習」的方法
代理(Agent)透過與環境互動,根據回饋/獎勵機制不斷更新策略,目標是最大化累積獎勵
Agent 不直接拿到標準答案,而是在環境中嘗試行動,
根據回饋的 Reward 來學習長期最好的決策策略。
MDP 基本元素
強化學習常建模為 MDP, Markov Decision Process:
- Agent:做決策的人(或模型)
- Environment:外部環境
- State (
):當下狀態 - Action (
):可採取的行動 - Reward (
):行動後得到的回饋 - Policy (
):在某狀態下如何選行動的規則
學習目標
RL 的目標不是只拿到當下獎勵,而是最大化「長期累積回報」
基於回饋(反饋)機制的學習方法
代理會透過**試錯學習(Trial-and-Error)**調整策略,追求長期最佳效益
常見寫法:
:從時間點 開始的累積回報 :折扣因子(0 到 1) - 越接近 1:越重視長期
- 越接近 0:越重視短期
探索 vs 利用
RL 核心難點之一是平衡:
- 探索(Exploration):嘗試新行動,找更好的策略
- 利用(Exploitation):使用目前已知最佳行動
如果只利用,容易卡在次佳解;
如果只探索,學習效率會很差。
常見方法家族
1) Value-based
學習狀態價值或動作價值(例如
2) Policy-based
直接學習 policy(輸入狀態,直接輸出行動機率)。
通常在連續控制問題很常見。
3) Actor-Critic
結合 value-based 與 policy-based:
- Actor 負責選行動
- Critic 負責評估行動好壞
一般訓練流程
- 初始化 policy / value function
- Agent 與環境互動,收集
- 根據演算法更新參數
- 重複多個 episodes,直到表現收斂
常見挑戰
- Reward 設計困難:獎勵錯了,模型可能學到錯誤行為
- 樣本效率低:需要大量互動資料
- 訓練不穩定:不同隨機種子結果可能差很多
- Credit Assignment:很晚才出現獎勵,難追溯哪一步做對
應用場景
- 遊戲(Atari、圍棋)
- 機器人控制(走路、抓取)
- 推薦與廣告策略優化
- 資源調度與決策最佳化
與你的其他筆記關聯
- 獎勵設計:Reward
- 基礎 value-basedReading/Artificial Intelligence/Reinforcement Learning/Q-Learning]
- 深度 RL 入門:DQN, Deep Q Network