過去兩年談 AI 基礎設施,幾乎都在談 GPU:H100、B200、Rubin、HBM、資料中心電力。
但 agentic AI 開始改變瓶頸。當模型不只是回答,而是要查檔案、寫程式、跑測試、呼叫工具、維持長任務狀態時,CPU 又回到舞台中央。
5 月 18 日,NVIDIA 宣布首批 Vera CPU 系統已送到 Anthropic、OpenAI、SpaceXAI 與 Oracle Cloud Infrastructure。這件事的重點不是多一顆晶片,而是 NVIDIA 正在把 AI factory 從「GPU cluster」重塑成「agent workload system」。
Vera 是什麼?
Vera 是 NVIDIA 第一款 custom CPU,定位是為 agentic AI 設計的主機處理器。
NVIDIA 公布的重點規格包括:
| 項目 | Vera CPU |
|---|---|
| CPU cores | 88 個 NVIDIA-designed Olympus cores |
| Memory bandwidth | 1.2TB/s |
| Per-core performance | full load 下快 50% |
| 主要任務 | orchestration、tool calling、RL workloads、data analytics、agent sandboxing、long-context state management |
| 搭配平台 | Vera Rubin NVL72、Rubin GPU、BlueField-4 DPU、Spectrum-X、MGX rack architecture |
它不是要取代 GPU 做模型矩陣運算,而是讓 GPU 不要被 CPU 與系統流程餓死。
AI agent 為什麼吃 CPU?
聊天模型的核心工作是推論。Agent 的核心工作則是「一邊推論,一邊操作世界」。
這會產生大量 CPU-heavy 工作:
| Agent 動作 | CPU 負載來源 |
|---|---|
| Tool calling | API routing、參數解析、錯誤處理 |
| Code execution | sandbox、container、檔案系統、程序管理 |
| Long-context retrieval | indexing、filtering、state management |
| Multi-agent orchestration | 任務排程、同步、訊息傳遞 |
| Test and build | compiler、package manager、CI runner |
| Data analysis | Python runtime、資料前處理、I/O |
| RL and simulation | 控制流程、環境互動、資料搬移 |
GPU 擅長大規模矩陣運算,但 agent 任務不是每一步都在算矩陣。大量時間花在準備資料、跑工具、等待 I/O、寫檔案、管理狀態。
這就是為什麼 NVIDIA 會說「AI agents don’t run on GPUs alone」。
Vera 對 OpenAI、Anthropic 這類 AI lab 的意義
對前沿模型公司來說,Vera 不是一般伺服器升級,而是為三種需求服務。
1.更高吞吐的 agent sandbox
Claude Code、Codex、Antigravity、Copilot cloud agent 這類 coding agent,都需要大量 sandbox。每個任務可能會:
- clone repo。
- 安裝 dependency。
- 跑測試。
- 修改檔案。
- 產生 diff。
- 重試失敗步驟。
這些動作都不只是 GPU inference。CPU、memory bandwidth、I/O 與 isolation 會直接影響 agent 回應速度。
2.更便宜的長任務推理
長任務 agent 不是一次推論結束,而是多回合、多工具、多檔案狀態。
如果 CPU 跟不上,GPU 會等資料、等工具結果、等 sandbox 執行。這會讓整體 token 成本與延遲上升。
Vera 的價值在於讓 agent pipeline 更順,把 GPU utilization 拉高。
3.Reinforcement learning 與 simulation
SpaceXAI 評估 Vera 用在 reinforcement learning workloads 與 agent-based simulation pipelines。這很合理,因為 RL 不只需要模型,也需要大量環境互動與狀態更新。
Agent 越像能行動的系統,training stack 就越需要 CPU 與模擬環境。
對 Oracle Cloud 的意義更直接
NVIDIA 提到 OCI 計畫從 2026 年開始部署數十萬顆 Vera CPU,並稱 OCI 是第一個 hyperscale 部署 Vera 的雲端供應商。
這裡有兩個訊號。
第一,AI 雲端的競爭不只是誰有最多 GPU,而是誰能提供 production-grade agent infrastructure。
第二,企業未來租用的可能不是單純 GPU instance,而是「可以跑 agent sandbox、tool execution、long-context retrieval」的一整套基礎設施。
對雲端客戶來說,這會影響:
- agent 任務延遲。
- sandbox 啟動速度。
- 長任務成本。
- 大量並行 agent 的穩定性。
- GPU 使用效率。
這和 AI PC 有關嗎?
有,但不是同一層級。
AI PC 討論的是端側推論、個人工具、本機小模型與隱私。Vera 討論的是資料中心的 agent workload。
兩者共同點是:AI 不再只靠一顆 GPU 解決。
未來 AI 系統會更像分工:
| 層級 | 主要硬體 |
|---|---|
| 本機 AI PC | NPU、GPU、CPU |
| 開發者 workstation | RTX GPU、CPU、local memory |
| Cloud inference | GPU、CPU、network、memory |
| Agent factory | GPU、CPU、DPU、sandbox、storage |
| Enterprise AI platform | Cloud agent infra、governance、observability |
Vera 是資料中心端的 CPU 回歸,AI PC 則是個人端的異質運算普及。
對企業 IT 的影響
企業短期不會直接採購 Vera CPU,但會間接受到影響。
Agent 成本會開始分層
現在很多 AI 工具只用「每席」或「每 token」定價。Agent 普及後,成本會被拆成更多項:
- 模型推論。
- sandbox 執行時間。
- 檔案與環境狀態保存。
- 工具呼叫。
- 資料檢索。
- 長任務排程。
Vera 這類硬體若能降低 agent sandbox 與 orchestration 成本,雲端平台就能推出更便宜或更穩定的 agent 方案。
Agent 服務會更像雲端運算
過去 SaaS AI 功能像是聊天。未來 agent 服務更像「你租一個會做事的雲端 worker」。
IT 要管理的不是單一 prompt,而是:
- 它能讀什麼資料?
- 它能執行什麼程式?
- 它能保留多久狀態?
- 它能同時開多少 worker?
- 錯誤時誰負責?
這會把 AI 採購推向 cloud infrastructure 與 security governance。
風險:硬體變強不代表 agent 可靠
Vera 解決的是性能與效率,不解決 agent 行為本身的可靠性。
企業仍然要面對:
- tool misuse。
- prompt injection。
- 錯誤檔案修改。
- sandbox escape。
- 權限過大。
- 無限迴圈造成成本失控。
- agent 產出難以 audit。
硬體讓 agent 跑得更快,治理要確保它不要更快地做錯事。
結論
NVIDIA Vera CPU 到貨的訊號很清楚:AI 基礎設施競爭正在從「誰有 GPU」變成「誰能支撐大量可行動 agent」。
在回答式 AI 時代,GPU 是焦點。在 agentic AI 時代,CPU、memory bandwidth、sandbox、tool calling、network、DPU 都會變成瓶頸的一部分。
對開發者與企業來說,這代表未來評估 AI 平台時,不只要問模型多強,也要問 agent 任務跑在哪裡、狀態怎麼保存、sandbox 多快、多安全、成本如何計算。
Vera 不是 AI 熱潮的旁支,而是 agent 時代基礎設施重組的一個早期標記。