2026-05-08

ZAYA1-8B

Zyphra 出的一個小但聰明的 reasoning model
active parameters 只用 760M,但總共有 8.4B ⇒ MoE, Mixture-of-Experts
大部分參數是備用的,每次只啟動一小部分來算,省算力但保持能力

Post-training 分五階段,簡單說就是:

  1. SFT — 教會基本對話、寫程式、數學
  2. Reasoning warmup — 專練邏輯推理
  3. RLVE-Gym — 用會動態調難度的題目來強化推理(像打遊戲升級)
  4. Math / code RL — 用 RL 繼續拉數學和程式能力
  5. RLHF / RLAIF — 調整聊天風格、讓人用起來舒服

Markovian RSA 是推論時的技巧,不是模型架構本身
讓模型多想幾輪,context 會越來越長 → 爆顯存

解法
多條 reasoning traces 平行生成
⭢ 只取每條的「尾巴」(結論部分)
⭢ 重新拼成新 prompt
⭢ 再推理一輪

只保留每輪推理的精華,丟掉過程,再繼續想
讓模型可以「多輪深度推理」但 context 不會爆

小 MoE 模型 + 聰明的推論策略 = 在不燒大算力的情況下,把 reasoning 能力往上拉。


Claude|Managed Agents

New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration | Claude

Claude Managed Agents
新增 dreaming、outcomes、multiagent orchestration、webhooks
從單次任務執行改成存記憶、自我改進、多代理協作、自我驗收等等平台

Memory      → 記住任務與偏好
Dreaming    → 離線整理與自我改善
Outcomes    → 自動驗收與 retry
Multiagent  → 任務拆解與平行處理
Webhooks    → 接入真實產品流程

Google Antigravity IDE

Google tests screen sharing and custom agents in Antigravity

可能要補兩個 Agent 開發能力 (不是公開資訊)

Screen Sharing / Screen Recording
⇒ 給 Agent 看到 IDE 外部的狀態
例如 emulator、桌面 App、外部 runtime、live demo 或 UI bug 重現流程

Custom Agents / Plugins
⇒ 團隊可以定義多個不同用途的 agent
從「單一通用 coding agent」往 可組態化 agent runtime 靠近


Legal Agent Benchmark, LAB

法律 Agent 基準測試

LAB 是 Harvey 推出的法律 Agent 評測基準,用來測試 AI 是否能完成接近真實律所工作的長任務。

核心動機

現有法律 AI 評測多半偏向 短期推理
例如回答合約問題、分析條款、比較案例

真實法律工作通常是 Long-horizon task
AI 需要讀大量文件、篩選重要資訊、跨文件分析,最後產出可被律師審查的成果。

LAB 的任務設計

LAB 模擬大型律所的工作流程:

測試規模

LAB 第一版包含:

評分特色

LAB 採用 全過才算過 的標準。

也就是說,一份報告即使抓到大多數風險,只要漏掉關鍵問題,就不能算成功。這反映法律工作的高風險特性。


TokenSpeed

TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads | LightSeek Foundation

為 Agentic inference 設計的高速 LLM 推論引擎

指標 意義
TPS/User 單一使用者感受到的生成速度
TPM/GPU 每張 GPU 每分鐘產出的 token 數,代表吞吐與成本效率

Powered by Forestry.md