Nested Learning, NL (嵌套學習)

NL 動機.png

動機

Nested Learning(NL)的提出建立在一個核心觀察:
現有深度學習模型的「架構 vs 優化器」分離設計,使 LLM 在部署後幾乎無法再學習,並自然產生災難性遺忘。

We see a similar limitation in current LLMs: their knowledge is confined to either the immediate context of their input window or the static information that they learn during pre-training.

Nested Learning(NL)的提出,核心動機源自兩個面向:

  1. 現有 LLM 與深度學習框架的根本限制
  2. 人類大腦具備「多時間尺度、多層次記憶統合」的啟發

深度學習把「架構」與「優化」分離的設計方式,本身就是造成 LLM 靜態與無法持續學習的根因
NL 的目標不是單純改善 Transformer,而是重新定義模型:
一組多層、嵌套、各自具有更新頻率的「學習系統」


LLM 的靜態性(Static Nature)

現有 LLM 的知識來源本質上只有兩種:

  1. 短期記憶(context window)

    • 代表模型的工作記憶
    • 只能參考,無法寫入
    • 內容一旦滑出視窗就遺失
  2. 長期記憶(MLP/FFN 參數)

    • 僅在預訓練時形成
    • 部署後幾乎不再改變
    • 新資訊無法寫入這些參數

一旦預訓練完成,模型的長期記憶(例如 FFN / MLP 參數)基本不再更新,只能體驗「短期現在」和「久遠過去」,而目前的 in-context learning 只是「短期工作記憶」,本質是不會寫入長期參數

結果形成一種「類似失去海馬迴的患者」狀態:

因此 LLM 的問題不只是「靜態」,更是:
⇒ 它們只能更新短期記憶,而無法執行大腦的 online consolidation(即時記憶鞏固)
LLM 完全缺乏 online consolidation(即時記憶鞏固)能力


核心問題:深度學習的結構性限制

現代深度學習遵循一個根深柢固的拆分:


問題 1:所有長期記憶被壓縮在同一層級

模型必須把所有知識同時塞進同一套參數(MLP/Attention/Embedding),
不論是:

都全靠同一組 W 存放、同一頻率更新

問題 2:優化器不是模型的一部分

使用 Adam、SGD 等外部優化器意味著:


這兩者被視為獨立模組,使模型無法:

這造成兩個後果:

  1. 所有長期記憶都侷限在「單一層級的參數空間」
    例如,MLP 層只能以單一時間尺度壓縮全部知識。

  2. 優化器(如 SGD、Adam)並不是模型的一部分,而是外部演算法
    因此模型沒辦法「自己學會如何更新自己」,也無法在推論期間寫入長期記憶。

Nested Learning 直接挑戰這個傳統:模型 = 架構 + 優化器
模型與優化器兩者都是「記憶系統」,應該共同形成整體模型本體。


災難性遺忘(Catastrophic Forgetting)

災難性遺忘的根因不是「更新太快」,
而是現代模型所有參數都在同一時間尺度更新(single time-scale)

如果模型擁有 多層級(multi-level)多時間尺度(multi time-scale) 的記憶模組,
就能像人腦一樣:

Nested Learning 的觀點是:
⇒ 不同的參數模組應該具有不同更新頻率(multi time-scale),這樣才能同時保留長期知識,又能快速習得新資訊


真正的洞見:深度學習只是「把嵌套學習扁平化」後的表象

深度學習其實是一種「錯誤的扁平化」
你以為深度學習是「堆疊 layer」 → 但這只是 Nested Learning 的「扁平展開」視圖

「Transformer 不是深,Transformer 是 多層記憶系統被壓成一層。」

NL 指出透過重新引入多層次 inner-loops(嵌套優化),模型就能自然具備持續學習能力
因此重新定義模型為:「一個具有不同更新頻率的階層式記憶堆疊(fast → mid → slow)」


HOPE(Hierarchically Optimized Processing and Encoding)

一個具有多層記憶、多時間尺度更新的序列模型
取代 Transformer,是 Nested Learning 的第一個具體架構

HOPE 的核心精神是:
把模型拆成多個「不同時間尺度」的記憶與處理層級,每層根據自己的「時間窗口」決定更新頻率,並把梯度/訊息以階層方式往下或往上傳遞。


HOPE 的主體是:

Input
 └── Multi-level Memory Stack(CMS)
         ├── Level 1: Fast Memory      (每步更新)
         ├── Level 2: Mid Memory       (每 C2 步更新)
         ├── Level 3: Slow Memory      (每 C3 步更新)
         │   ...
         └── Level k: Ultra-slow Memory
 └── Output head

每一層都是一個小 MLP(或 linear),但更新頻率不同


Module 1 — Fast Memory(快速記憶層)

動機:
Transformer 的 attention 只能處理短期關係,它不會更新長期記憶也不會形成穩定技能

期望:
人類的大腦有 fast working memory(短期記憶),負責「立即響應」、快速適應新情境
⇒ 這層就對應 model 的「即時適應能力

⇒ 讓模型在無須重新訓練整個 network 的情況下,立刻擬合短期模式,允許模型「邊用邊學」(online learning)


Module 2 — Intermediate Memory(中速記憶層)

人類會:

HOPE 模仿的就是 短期 → 中期的記憶轉移過程
這樣的功效有:

Intermediate 層:任務級別或段落級別的模式統整


Module 3 — Slow Memory(慢速記憶層)

對應人類的 systems consolidation(長期記憶),人腦在睡眠或長期重複過程中,把重要的知識寫入大腦皮質。

⇒ slow memory 的存在使模型不會因學新任務而忘掉舊任務,避免 Catastrophic Forgetting 的核心


Module 4 — Hierarchical Update Mechanism(階層式更新機制)

Transformer 一次性更新所有參數,導致三大問題:

  1. 單一時間尺度
  2. 記憶扁平化
  3. 災難性遺忘

HOPE 的解法是每一層有自己的 optimizer + 自己的更新節奏:

Fast Memory:    每一步更新 ⇒ 學當下
Intermediate:   每 C₂ 步更新 ⇒ 學中期知識
Slow:           每 C₃ 步更新 ⇒ 寫入長期穩定知識

Reference

多時間尺度(multi time-scale)

代表大腦不同記憶模組的更新速度完全不同:

快速更新:Working Memory / Online Learning
就像 LLM 的 attention,也像 few-shot ICL

  • 即時理解
  • 短期推論
  • 提取上下文

中速更新:Synaptic Consolidation

  • 海馬迴將短期記憶穩定化
  • 記憶從暫時狀態轉為較持久狀態

慢速更新:Systems Consolidation

  • 長期記憶的重組
  • 長期知識寫入皮質(如語言、抽象概念)
多層次記憶統合(Multi-Level Memory Consolidation)

資訊會依序通過多個不同層級的記憶模組,每層都以不同更新頻率加工一次

  • Level 1:感知記憶(毫秒)
  • Level 2:短期 / 工作記憶(秒)
  • Level 3:中期記憶(小時)
  • Level 4:長期記憶(天~年)
Powered by Forestry.md