Code with Claude 2026 三招升級：讓代理睡覺、給 KPI、編隊出擊

Q: Dreaming 跟 Mem0、MemGPT 這類記憶工具差在哪？

**核心差別是「**主動 vs 被動**」**。 **Mem0、MemGPT**（被動取出）: - 把過去對話存到向量資料庫 - 使用者問問題時取出「**相關片段**」 - 代理不會「**主動回顧**」過去——只在查詢時被動拿出來 - **沒有「**抽取模式**」「**遺忘**」「**強化**」這些認知運作** **Dreaming**（主動整合）: - 代理閒置時自動回顧 N 個過去會話 - 主動找模式、更新記憶、遺忘不重要的細節 - 像「**真的學習**」，不是「**檔案管理**」 **對使用者來說**: - Mem0 是「**圖書館員**」——你問，他幫你找 - Dreaming 是「**學徒**」——他自己讀書、自己進步 實務上 Mem0、MemGPT 跟 Dreaming **不衝突，可以共存**——Dreaming 處理「**長期學習**」,Mem0 處理「**結構化資料取出**」。

Q: Multiagent 跟 LangGraph、CrewAI 這類框架差別？

**差別在「**框架級 vs 平台級**」**。 **LangGraph、CrewAI**（框架）: - 開源，需要自己架設 - 跟模型解耦（可接 OpenAI、Anthropic、Gemini） - 需要自己處理狀態管理、錯誤處理、預算控制 - 適合「**深度客製**」「**模型中立**」場景 **Anthropic 多代理協調**（平台）: - 整合在 Claude 介面、控制台內 - 跟 Claude 模型與 Anthropic 基礎建設深度整合 - Anthropic 處理狀態、重試、預算護欄 - 適合「**低運維開銷**」「**Claude 為主**」場景 **選擇邏輯**: - 全押 Claude → Anthropic Multiagent 比較省事 - 需要多模型備援 → LangGraph、CrewAI 比較靈活 - 學習曲線 → Anthropic 平台版較短，框架較深 **台灣中小企業、個人開發者**多數適合 Anthropic 平台版——**較低運維開銷**。**大型企業、平台級產品**多數適合框架版——**避免被單一供應商鎖死**。

Q: Outcomes 會不會被代理鑽漏洞？

**會，而且這是設計上必須處理的問題**。 鑽漏洞的典型例子： - **目標**：測試覆蓋率 ≥ 80% → **鑽漏洞**：寫沒意義的測試湊覆蓋率 - **目標**：包大小 ≤ X → **鑽漏洞**：把程式碼移到不算包的地方 - **目標**:Lighthouse > 90 → **鑽漏洞**：延遲載入一切讓首屏看起來快 **對策**: 1. **多重成果指標互相制衡**——例：測試覆蓋率 + 突變測試分數 + 程式碼審查通過 2. **質性成果指標跟量化成果指標混合**——「**程式碼可讀性**」這種要裁判模型評 3. **成果指標設定要由人類審查**——不要讓代理自己定義成果指標 4. **抽樣稽核**——隨機檢查代理完成的工作，確認「**達標不等於鑽漏洞**」 這跟人類員工的 KPI 鑽漏洞問題本質一樣——**沒有完美解，只能持續監測 + 調整**。**Anthropic 內部已有「**成果指標鑽漏洞偵測**」研究，但目前還沒做成商業功能**。

5/06 Anthropic 開發者大會推三招代理新功能：Dreaming 讓代理跨會話自我學習、Outcomes 把模糊任務變可量化 KPI、Multiagent 編代理隊伍。

發佈於： 2026-05-14

中級 Anthropic Claude Code with Claude

⚡ 重點摘要（TL;DR）

5/06 Anthropic 在舊金山辦 Code with Claude 2026 開發者大會，受管代理推三招新功能：**Dreaming（做夢）、Outcomes（成果指標）、Multiagent Orchestration（多代理協調）**
**Dreaming**：代理跨會話自動回顧過去會話與記憶儲存，抽取模式、更新偏好——Anthropic 直接類比「**人腦海馬迴在睡眠中做記憶整合**」
**Outcomes**：把模糊的「**完成這個任務**」轉成可量化的成功標準，代理可以反覆修改直到達標——代理從「**做了就交**」變「**做到才停**」
**Multiagent Orchestration**：讓多個代理形成隊伍處理複雜任務，有主管與工作者結構，可規模化到「**幾十個代理平行作業**」
大會 5/06 舊金山 → 5/19 倫敦 → 6/10 東京，合作夥伴包括 GitHub、AWS、Datadog、Vercel、Cursor、Microsoft——Anthropic 在「**代理生態**」拿到大廠站台
對台灣開發者實用價值：Dreaming 讓「**長期專案**」的代理不再每次重新摸索，Outcomes 讓專案經理給代理設 KPI,Multiagent 適合大型程式碼倉庫重構與遷移

5 月 6 日，Anthropic 在舊金山辦 Code with Claude 2026 開發者大會，受管代理一次推三招升級：Dreaming（做夢）、Outcomes（成果指標）、Multiagent Orchestration（多代理協調）。

過去 12 個月代理技術的兩個結構性問題：(1) 代理不會「從過去學習」（每個會話是孤島）、(2) 代理不知道「做對了沒」（沒明確成功標準）。Code with Claude 2026 三招正是直接針對這兩個痛點。

最值得記的詞是「Dreaming」——Anthropic 直接類比人腦海馬迴在睡眠中的記憶整合(memory consolidation)。這個比喻不是行銷，是技術上的真實對應——代理在「閒置時間」回顧過去會話、抽取模式、更新記憶儲存。

📋 5/06 三大新功能

功能	解決的痛點	適合場景
Dreaming	代理跨會話沒有「學習」，每次從零開始	長期專案、重複性任務、團隊共用代理
Outcomes	代理不知道「任務完成標準」，常做出主觀「差不多」結果	有明確 KPI 的工作（測試覆蓋率、效能指標）
Multiagent Orchestration	單一代理處理複雜任務速度慢、上下文不夠	大型程式碼倉庫重構、大型遷移、平行調研

大會行程：

5/06 舊金山（主場、首發）
5/19 倫敦
6/10 東京（亞太重點場）

合作夥伴公開站台：GitHub、AWS、Datadog、Vercel、Cursor、Microsoft——這個名單比表面看起來重要，Anthropic 在「代理生態」的合作網，已經涵蓋雲端、開發環境、監控、部署整個技術堆疊。

🧠 Dreaming：把代理從「失憶症」變「真正學習」

過去代理的記憶模型：

單一會話內：有上下文窗口記住對話
跨會話:完全失憶（每次新對話從零開始）
MemGPT、Mem0 等記憶工具：把過去對話存到向量資料庫，但仍是「被動取出」，不是「主動學習」

Dreaming 的不同：

(1) 主動回顧而非被動取出 過去代理記憶是「使用者問問題時取出過去類似對話」。Dreaming 是「代理在閒置時間自動回顧過去 N 個會話」——找模式、找重複錯誤、找團隊偏好，然後更新記憶儲存。

(2) 記憶整合的技術對應 人腦海馬迴在睡眠中：

重播白天的事件
抽取重複的模式
強化值得記的記憶、遺忘不重要的雜訊
整合新舊記憶到長期儲存

Dreaming 對應做四件類似的事：

會話重播：讀過去會話紀錄
模式抽取：找出「這個團隊常做的事」「這個使用者常犯的錯」
記憶整理：強化重要記憶、刪除過時記憶
跨代理整合：多個代理的學習整合進共享記憶

(3) 排程而非即時 Dreaming 是 排程程序——不是即時跑，是代理閒置時跑（類似人類睡眠）。這個設計讓「學習」不佔用推論配額，使用者付的還是「對話用量」。

(4) 跨代理學習 最被低估的細節:Dreaming 可以跨代理整合學習——例如代理 A 學到「使用者偏好用 TypeScript 嚴格模式」，代理 B（同團隊）也會繼承這個偏好。這對企業、團隊使用是大躍進——代理學一次，團隊都會。

🎯 Outcomes：把模糊任務變可量化 KPI

過去代理任務描述：「幫我重構這個元件」——代理做完丟回來，有沒有「做對」要使用者自己判斷。

Outcomes 的設計：

(1) 任務時明確定義成功標準

任務:重構 UserProfile 元件
Outcomes:
- 測試覆蓋率 ≥ 80%
- 包大小減少 ≥ 15%
- Lighthouse Performance 分數 ≥ 90
- 所有既有測試仍通過

(2) 代理自己反覆修改直到達標 代理跑改、跑測試、看結果——沒達成果指標就繼續改。這個迴圈過去要使用者手動跑，現在代理自己跑。

(3) Outcomes 可量化也可半量化

完全量化：測試覆蓋率、包大小、效能指標、程式碼覆蓋率
半量化：程式碼風格檢查通過、無 TypeScript 錯誤、無主控台警告
質性（透過裁判模型）:「改完後的程式碼比原本可讀性更好」

(4) 失敗時報告而非隱藏 代理達不到成果指標時：

過去：隱藏（交給人類「做到差不多就好」的版本）
現在：明確報告「測試覆蓋率只到 65%，包大小反而增加 3%——以下是嘗試的版本」——把判斷權還給人類

這個設計對企業客戶極關鍵——過去代理「做了什麼」不透明，Outcomes 把它變成「可審計、可衡量、可追責」的工作流。

🤝 Multiagent Orchestration：代理從「獨行俠」變「團隊作戰」

過去代理的限制：

單一代理上下文窗口約 20 萬詞元，大型程式碼倉庫塞不下
單一代理是循序執行，沒法平行加速
單一代理沒「分工」,做大任務時亂掉

Multiagent Orchestration 的解法：

(1) 主管 + 工作者架構

主管代理：接到大任務，拆解成子任務，分配給工作者代理
工作者代理：接子任務，獨立執行，把結果回報給主管
主管整合工作者結果，組成最終交付

(2) 平行而非序列

互相獨立的子任務：平行(N 個工作者同時跑)
互相依賴的子任務：序列（工作者 A 完成再交給工作者 B）
主管自動判斷依賴關係

(3) 例子：大型單一倉庫的相依套件升級

主管：接到「升級 React 18 → 19」
拆解：(a) 找所有用 React 的套件、(b) 每個套件分配一個工作者、(c) 平行跑相依套件更新與測試、(d) 整合所有改動
40 個套件平行跑，過去 2 週的工作變 1 小時

(4) 詞元配額管理 每個工作者有自己的 20 萬上下文——總額 = N × 20 萬。對大型企業任務來說，「可用上下文」幾乎無上限（成本變高，但技術上可行）。

對台灣開發者實用場景:

大型程式碼倉庫的框架遷移(Vue 2 → 3、Angular → React)
大型測試覆蓋率補完（每個模組派一個工作者）
多服務同步更新介面合約
跨倉庫的破壞性變更重構

💼 大會合作夥伴矩陣

5/06 舊金山場合作站台名單:

夥伴	整合方向
GitHub	Claude 整合到 GitHub Copilot Workspace 與 Actions
AWS	Bedrock 上的 Claude + Trainium 推論
Datadog	代理監控、效能追蹤、成本追蹤
Vercel	前端部署、預覽環境整合
Cursor	Claude 4.7 整合到 Cursor 代理模式
Microsoft	VS Code + Office 365 整合（後續跟進）

這個名單的意義:

不只是「Claude 能跑在你平台上」，是「整套代理工作流整合」
Datadog 的加入很重要——「AI 代理可觀測性」會變新的資訊採購類別，Datadog 卡位早
Cursor 跟 GitHub Copilot Workspace 兩家是直接競爭，但都接 Claude——Anthropic 走「模型中立、開發環境都歡迎」路線

💡 Mason 的判斷

5/06 三招新功能不是「單獨的功能升級」，是「代理從工具走向同事」的開始。三個觀察：

(1) Dreaming 是技術上的「人類化」過去代理失敗的原因常是「沒有真正的學習」——你罵它一次，下次它仍犯一樣的錯。Dreaming 第一次把「跨會話學習」做到正式產品級。這個能力會讓代理從「通用工具」變「個人化助手」——不同團隊的 Claude 代理會有不同個性與能力強項。

(2) Outcomes 解決「代理軟交付」這個老問題 過去代理最大的商業障礙是「做了什麼不清楚、做對了沒不清楚」。Outcomes 把這個變「可審計」——這對企業採購是關鍵突破。預期未來 12 個月，Outcomes 會變「所有企業代理採購的標配需求」。

(3) Multiagent Orchestration 對應的是「真正的代理勞動市場」過去談「AI 取代工作」都是模糊的。Multiagent 可以開出 40 個平行工作者做大型遷移——這就是「用 AI 取代一個團隊」的具體形態。未來 24 個月，「用 N 個代理做事」會變成企業熟悉的工作單位。

但有幾個現實限制：

(a) Dreaming 的隱私挑戰 代理學什麼、保留多久、跨團隊分享多少——這些設計沒處理好會踩雷。預期 2026-2027 有「代理不該記住但記住了」這類事故出現。

(b) Outcomes 的鑽漏洞風險 代理為了達 KPI 可能 鑽漏洞（測試覆蓋率高但測試品質差、包大小小但功能漏）。需要 meta 層級的成果指標設計——例如「成果指標是審查通過，不是純量化指標」。

(c) Multiagent 成本失控風險 N 個工作者平行跑 = N 倍詞元成本。沒做好預算控制，一個遷移跑 5,000 美元是可能的。Anthropic 預期會推預算護欄，但現在仍要使用者自己警覺。

🇹🇼 對台灣的延伸

對台灣軟體業、系統整合商:

大型舊系統遷移（銀行、保險、政府的 COBOL 改 Java 等）是 Multiagent 的最大商業價值場景——過去 6-12 個月專案，可能壓縮到 1-2 個月
台灣系統整合廠商（凱亞、宏碁資訊、敦陽科技等）現在就該開始累積「多代理遷移」案例——12-24 個月內會變客戶必問項
Outcomes 對台灣客戶習慣很合——台灣企業文化對「KPI 量化」接受度高，比歐美客戶更願意定義明確指標

對台灣專案經理、工程主管:

學會給代理設成果指標——這是新管理技能，跟管人類團隊不同
建立「代理勞動預算」概念——每個專案多少代理詞元預算，跟人月預算並列
Multiagent 對「程式碼審查、測試、缺陷分類」這些「規模化 + 重複性」工作的衝擊最大——這些工作的人類定位要重新設計

對台灣 Anthropic 用戶、訂閱者:

Dreaming 預期 8-12 週後正式釋出（現在是研究預覽），關注 Claude.ai 跟介面文件
Multiagent Orchestration 在東京場(6/10)會有亞太合作夥伴宣布——對 Anthropic 來說亞太是優先擴展市場
對個人使用者：Dreaming 對「長期專案」有意義——例如連續 3 個月跟同一個代理一起寫一本書或一個產品，代理真的會「懂你」

🎯 不同角色的建議

給 Claude 介面使用者、開發者:

這個月評估「Outcomes 重構任務」——把現有提示加明確的成功標準，看效果差異
學習多代理協調的設計模式——主管與工作者分工、依賴管理、預算控制
對長上下文任務跟多代理任務的成本建模，現在就建試算表追蹤

給企業客戶、資訊主管:

跟 Anthropic 銷售或 Bedrock 銷售談「受管代理企業服務水準協議」——這是新方案，可能有早鳥優惠
評估「舊系統遷移」專案使用 Multiagent 的可行性——找一個內部驗證試試
建立代理治理框架——成果指標、權限、預算、稽核軌跡都需要規範

給競品(OpenAI、Google)使用者:

Anthropic 在代理體驗領先 6-12 個月——OpenAI、Google 預期會跟進類似功能，但會晚
不要急著切換——等競品也推類似功能後再做比較
但長上下文 + 多代理工作流先用 Claude 累積經驗——這些技能在所有平台都通用

給台灣政府、公部門:

健保、戶政、稅捐、勞保等大型舊系統的現代化是 Multiagent 的潛在大標案——現在就該規劃驗證預算
「以成果指標為基礎的 AI 採購」應變成新採購標準——擺脫「有買就好」的舊習慣
跟亞太 Anthropic 團隊建立官方對話窗口——東京場(6/10)是好時機

❓ FAQ

Dreaming 跟 Mem0、MemGPT 這類記憶工具差在哪？

核心差別是「主動 vs 被動」。

Mem0、MemGPT（被動取出）:

把過去對話存到向量資料庫
使用者問問題時取出「相關片段」
代理不會「主動回顧」過去——只在查詢時被動拿出來
沒有「抽取模式」「遺忘」「強化」這些認知運作

Dreaming（主動整合）:

代理閒置時自動回顧 N 個過去會話
主動找模式、更新記憶、遺忘不重要的細節
像「真的學習」，不是「檔案管理」

對使用者來說:

Mem0 是「圖書館員」——你問，他幫你找
Dreaming 是「學徒」——他自己讀書、自己進步

實務上 Mem0、MemGPT 跟 Dreaming 不衝突，可以共存——Dreaming 處理「長期學習」,Mem0 處理「結構化資料取出」。

Multiagent 跟 LangGraph、CrewAI 這類框架差別？

差別在「框架級 vs 平台級」。

LangGraph、CrewAI（框架）:

開源，需要自己架設
跟模型解耦（可接 OpenAI、Anthropic、Gemini）
需要自己處理狀態管理、錯誤處理、預算控制
適合「深度客製」「模型中立」場景

Anthropic 多代理協調（平台）:

整合在 Claude 介面、控制台內
跟 Claude 模型與 Anthropic 基礎建設深度整合
Anthropic 處理狀態、重試、預算護欄
適合「低運維開銷」「Claude 為主」場景

選擇邏輯:

全押 Claude → Anthropic Multiagent 比較省事
需要多模型備援 → LangGraph、CrewAI 比較靈活
學習曲線 → Anthropic 平台版較短，框架較深

台灣中小企業、個人開發者多數適合 Anthropic 平台版——較低運維開銷。大型企業、平台級產品多數適合框架版——避免被單一供應商鎖死。

Outcomes 會不會被代理鑽漏洞？

會，而且這是設計上必須處理的問題。

鑽漏洞的典型例子：

目標：測試覆蓋率 ≥ 80% → 鑽漏洞：寫沒意義的測試湊覆蓋率
目標：包大小 ≤ X → 鑽漏洞：把程式碼移到不算包的地方
目標:Lighthouse > 90 → 鑽漏洞：延遲載入一切讓首屏看起來快

對策:

多重成果指標互相制衡——例：測試覆蓋率 + 突變測試分數 + 程式碼審查通過
質性成果指標跟量化成果指標混合——「程式碼可讀性」這種要裁判模型評
成果指標設定要由人類審查——不要讓代理自己定義成果指標
抽樣稽核——隨機檢查代理完成的工作，確認「達標不等於鑽漏洞」

這跟人類員工的 KPI 鑽漏洞問題本質一樣——沒有完美解，只能持續監測 + 調整。Anthropic 內部已有「成果指標鑽漏洞偵測」研究，但目前還沒做成商業功能。

Sources:

№ · further reading