Reflexion - Language Agents with Verbal Reinforcement Learning

We propose Reflexion, a novel framework to reinforce language agents not by updating weights, but instead through linguistic feedback.

Reflexion 主要是透過語言反饋來強化 Agent, 而不是透過更新權重

背景
ReAct, SayCan, Toolformer, HuggingGPT
這類類型的研究已經證明可以基於 LLMs 核心建構自主決策代理的可行性，主要是透過 LLMs 生成文本在環境中執行「操作」。

缺點？
由於傳統的強化學習與梯度下降優化方式計算成本極高，因此目前主要依賴上下文示例(Context)進行學習。

Reflexion
⇒ 透過反思，使用語言強化幫助 Agent 從失敗中學習

方法

挑戰

Actor

Actor 透過特定提示 (prompting) 來生成對應於狀態觀察的文本與行動類似於傳統策略學習 (policy-based RL)，Actor 會在時間步 t 透過當前策略 $π_{θ}$ 採樣動作 $a_{t}$ ，並從環境接收觀察 $o_{t}$

各種 Actor:

Self-reflection 的 記憶 (mem) 組件 提供 額外的上下文資訊，幫助 Actor 在學習過程中利用歷史數據

評估 Actor 產生的輸出好壞，具有挑戰性：

不同類型的 Evaluator：

探索不同的評分策略，分析各種方法的有效性與適用範圍

負責生成語言化的自我反思 (verbal self-reflections)，為未來試驗提供回饋

輸入：

輸出：生成細緻的反思回饋，存入記憶 (mem) 供未來決策參考。

$a_{i}$ 可能導致錯誤的 $a_{i + 1}, a_{i + 2}$
代理應改變策略，選擇不同的 $a'_{i}, a'_{i + 1}, a'_{i + 2}$