做 agent prototype 很快,做 production agent 很慢。
差別不是模型,而是部署、狀態、權限、監控、版本、評估、成本、錯誤復原。Google 的路線是:用 Agent Development Kit(ADK)建 agent,再用 Vertex AI Agent Engine 管 production runtime。
ADK 和 Agent Engine 各自負責什麼?
| 元件 | 角色 |
|---|---|
| ADK | 開源 agent development framework |
| Agent Garden | 範例、樣板與可重用 agent 資源 |
| Vertex AI Agent Engine | 受管理 runtime,負責部署與 production 管理 |
| Gemini/其他模型 | 模型層,可依需求選擇 |
| A2A/MCP | agent 溝通與工具連接標準 |
ADK 像是本機與框架層,Agent Engine 像是 production platform。
Agent Engine 補的是 production 缺口
Google Cloud 說 Agent Engine 處理:
- Agent context。
- Infrastructure management。
- Scaling。
- Security。
- Evaluation。
- Monitoring。
- Reliability。
- Session memory。
- Long-term memory。
這些正是 prototype 最常忽略、上線時最痛的地方。
和自架 LangGraph/CrewAI 差在哪?
Agent Engine 不一定要求你用 ADK。Google 提到可部署 ADK、LangGraph、CrewAI 或其他 framework 的 agents,也不限定模型供應商。
差異在 deployment layer:
| 路線 | 適合 |
|---|---|
| 自架 LangGraph/CrewAI | 想完全控制 infra 的團隊 |
| ADK 本機開發 | Google 生態、快速做 agent |
| ADK+Agent Engine | 需要 Google Cloud production 控管 |
| Gemini API Managed Agents | 想用受管理 agent,但不想先搭完整 runtime |
如果你已經在 Google Cloud,Agent Engine 的整合成本較低。如果你在 AWS、Azure 或自架 Kubernetes,則要評估平台綁定。
Production agent 要補哪些工程?
1.狀態管理
Agent 任務常常跨多輪、跨工具、跨檔案。要設計 session memory、long-term memory、清除策略與權限。
2.Observability
Agent 錯了要知道為什麼。需要 trace、log、tool call record、model decision、error retry。
3.安全與權限
要限制 agent 能呼叫哪些 API、讀哪些資料、寫哪些系統。Agent Engine 可提供平台控管,但應用層仍要做最小權限。
4.Evaluation
不能只測 demo prompt。要建立 regression evals、工具使用測試、拒答測試、權限測試、成本測試。
5.Release management
Agent prompt、tools、模型版本、workflow 都會改。每次改動都可能造成行為變化,需要版本管理。
什麼團隊適合?
適合:
- 已深度使用 Google Cloud。
- 要部署多個內部 agents。
- 需要 enterprise monitoring 與 governance。
- Agent 要接企業資料與 API。
- 有平台工程或 MLOps 團隊。
暫時不急:
- 只做個人 prototype。
- Agent 任務很小。
- 不需要長期狀態。
- 沒有 production SLA。
- 還在驗證使用者需求。
結論
Google ADK+Vertex AI Agent Engine 的重點,是把 agent 從 demo 推向 production runtime。
ADK 幫你建,Agent Engine 幫你跑、管、監控、擴展。真正要評估的是團隊是否已經需要 production agent 平台,還是先用更輕的 Gemini API Managed Agents 或本機 ADK 就夠。
Agent 不是寫出來就能上線。當它開始記憶、呼叫工具、連接企業資料,production 工程才真正開始。