2026-05-08

ZAYA1-8B

Zyphra 出的一個小但聰明的 reasoning model
active parameters 只用 760M，但總共有 8.4B ⇒ MoE, Mixture-of-Experts
大部分參數是備用的，每次只啟動一小部分來算，省算力但保持能力

Post-training 分五階段，簡單說就是：

Markovian RSA 是推論時的技巧，不是模型架構本身
讓模型多想幾輪，context 會越來越長 → 爆顯存

解法：
多條 reasoning traces 平行生成
⭢ 只取每條的「尾巴」（結論部分）
⭢ 重新拼成新 prompt
⭢ 再推理一輪

只保留每輪推理的精華，丟掉過程，再繼續想
讓模型可以「多輪深度推理」但 context 不會爆

小 MoE 模型 + 聰明的推論策略 = 在不燒大算力的情況下，把 reasoning 能力往上拉。

Claude Managed Agents
新增 dreaming、outcomes、multiagent orchestration、webhooks
從單次任務執行改成存記憶、自我改進、多代理協作、自我驗收等等平台

Memory      → 記住任務與偏好
Dreaming    → 離線整理與自我改善
Outcomes    → 自動驗收與 retry
Multiagent  → 任務拆解與平行處理
Webhooks    → 接入真實產品流程

可能要補兩個 Agent 開發能力 (不是公開資訊)

Screen Sharing / Screen Recording
⇒ 給 Agent 看到 IDE 外部的狀態
例如 emulator、桌面 App、外部 runtime、live demo 或 UI bug 重現流程

Custom Agents / Plugins
⇒ 團隊可以定義多個不同用途的 agent
從「單一通用 coding agent」往 可組態化 agent runtime 靠近

法律 Agent 基準測試

LAB 是 Harvey 推出的法律 Agent 評測基準，用來測試 AI 是否能完成接近真實律所工作的長任務。

現有法律 AI 評測多半偏向 短期推理
例如回答合約問題、分析條款、比較案例

真實法律工作通常是 Long-horizon task：
AI 需要讀大量文件、篩選重要資訊、跨文件分析，最後產出可被律師審查的成果。

LAB 模擬大型律所的工作流程：

LAB 第一版包含：

LAB 採用 全過才算過 的標準。

也就是說，一份報告即使抓到大多數風險，只要漏掉關鍵問題，就不能算成功。這反映法律工作的高風險特性。

為 Agentic inference 設計的高速 LLM 推論引擎

指標	意義
TPS/User	單一使用者感受到的生成速度
TPM/GPU	每張 GPU 每分鐘產出的 token 數，代表吞吐與成本效率