回到頂部
NVIDIA Vera CPU 支援 AI agent 基礎設施示意圖

NVIDIA Vera CPU 到貨:Agentic AI 為什麼開始重新重視 CPU?

NVIDIA 將首批 Vera CPU 系統送到 Anthropic、OpenAI、SpaceXAI 與 Oracle Cloud。整理 Vera 對 AI agent、tool calling、sandbox、long-context retrieval 與 AI factory 的意義。

過去兩年談 AI 基礎設施,幾乎都在談 GPU:H100、B200、Rubin、HBM、資料中心電力。

但 agentic AI 開始改變瓶頸。當模型不只是回答,而是要查檔案、寫程式、跑測試、呼叫工具、維持長任務狀態時,CPU 又回到舞台中央。

5 月 18 日,NVIDIA 宣布首批 Vera CPU 系統已送到 Anthropic、OpenAI、SpaceXAI 與 Oracle Cloud Infrastructure。這件事的重點不是多一顆晶片,而是 NVIDIA 正在把 AI factory 從「GPU cluster」重塑成「agent workload system」。

Vera 是什麼?

Vera 是 NVIDIA 第一款 custom CPU,定位是為 agentic AI 設計的主機處理器。

NVIDIA 公布的重點規格包括:

項目Vera CPU
CPU cores88 個 NVIDIA-designed Olympus cores
Memory bandwidth1.2TB/s
Per-core performancefull load 下快 50%
主要任務orchestration、tool calling、RL workloads、data analytics、agent sandboxing、long-context state management
搭配平台Vera Rubin NVL72、Rubin GPU、BlueField-4 DPU、Spectrum-X、MGX rack architecture

它不是要取代 GPU 做模型矩陣運算,而是讓 GPU 不要被 CPU 與系統流程餓死。

AI agent 為什麼吃 CPU?

聊天模型的核心工作是推論。Agent 的核心工作則是「一邊推論,一邊操作世界」。

這會產生大量 CPU-heavy 工作:

Agent 動作CPU 負載來源
Tool callingAPI routing、參數解析、錯誤處理
Code executionsandbox、container、檔案系統、程序管理
Long-context retrievalindexing、filtering、state management
Multi-agent orchestration任務排程、同步、訊息傳遞
Test and buildcompiler、package manager、CI runner
Data analysisPython runtime、資料前處理、I/O
RL and simulation控制流程、環境互動、資料搬移

GPU 擅長大規模矩陣運算,但 agent 任務不是每一步都在算矩陣。大量時間花在準備資料、跑工具、等待 I/O、寫檔案、管理狀態。

這就是為什麼 NVIDIA 會說「AI agents don’t run on GPUs alone」。

Vera 對 OpenAI、Anthropic 這類 AI lab 的意義

對前沿模型公司來說,Vera 不是一般伺服器升級,而是為三種需求服務。

1.更高吞吐的 agent sandbox

Claude Code、Codex、Antigravity、Copilot cloud agent 這類 coding agent,都需要大量 sandbox。每個任務可能會:

  • clone repo。
  • 安裝 dependency。
  • 跑測試。
  • 修改檔案。
  • 產生 diff。
  • 重試失敗步驟。

這些動作都不只是 GPU inference。CPU、memory bandwidth、I/O 與 isolation 會直接影響 agent 回應速度。

2.更便宜的長任務推理

長任務 agent 不是一次推論結束,而是多回合、多工具、多檔案狀態。

如果 CPU 跟不上,GPU 會等資料、等工具結果、等 sandbox 執行。這會讓整體 token 成本與延遲上升。

Vera 的價值在於讓 agent pipeline 更順,把 GPU utilization 拉高。

3.Reinforcement learning 與 simulation

SpaceXAI 評估 Vera 用在 reinforcement learning workloads 與 agent-based simulation pipelines。這很合理,因為 RL 不只需要模型,也需要大量環境互動與狀態更新。

Agent 越像能行動的系統,training stack 就越需要 CPU 與模擬環境。

對 Oracle Cloud 的意義更直接

NVIDIA 提到 OCI 計畫從 2026 年開始部署數十萬顆 Vera CPU,並稱 OCI 是第一個 hyperscale 部署 Vera 的雲端供應商。

這裡有兩個訊號。

第一,AI 雲端的競爭不只是誰有最多 GPU,而是誰能提供 production-grade agent infrastructure。

第二,企業未來租用的可能不是單純 GPU instance,而是「可以跑 agent sandbox、tool execution、long-context retrieval」的一整套基礎設施。

對雲端客戶來說,這會影響:

  • agent 任務延遲。
  • sandbox 啟動速度。
  • 長任務成本。
  • 大量並行 agent 的穩定性。
  • GPU 使用效率。

這和 AI PC 有關嗎?

有,但不是同一層級。

AI PC 討論的是端側推論、個人工具、本機小模型與隱私。Vera 討論的是資料中心的 agent workload。

兩者共同點是:AI 不再只靠一顆 GPU 解決。

未來 AI 系統會更像分工:

層級主要硬體
本機 AI PCNPU、GPU、CPU
開發者 workstationRTX GPU、CPU、local memory
Cloud inferenceGPU、CPU、network、memory
Agent factoryGPU、CPU、DPU、sandbox、storage
Enterprise AI platformCloud agent infra、governance、observability

Vera 是資料中心端的 CPU 回歸,AI PC 則是個人端的異質運算普及。

對企業 IT 的影響

企業短期不會直接採購 Vera CPU,但會間接受到影響。

Agent 成本會開始分層

現在很多 AI 工具只用「每席」或「每 token」定價。Agent 普及後,成本會被拆成更多項:

  • 模型推論。
  • sandbox 執行時間。
  • 檔案與環境狀態保存。
  • 工具呼叫。
  • 資料檢索。
  • 長任務排程。

Vera 這類硬體若能降低 agent sandbox 與 orchestration 成本,雲端平台就能推出更便宜或更穩定的 agent 方案。

Agent 服務會更像雲端運算

過去 SaaS AI 功能像是聊天。未來 agent 服務更像「你租一個會做事的雲端 worker」。

IT 要管理的不是單一 prompt,而是:

  • 它能讀什麼資料?
  • 它能執行什麼程式?
  • 它能保留多久狀態?
  • 它能同時開多少 worker?
  • 錯誤時誰負責?

這會把 AI 採購推向 cloud infrastructure 與 security governance。

風險:硬體變強不代表 agent 可靠

Vera 解決的是性能與效率,不解決 agent 行為本身的可靠性。

企業仍然要面對:

  • tool misuse。
  • prompt injection。
  • 錯誤檔案修改。
  • sandbox escape。
  • 權限過大。
  • 無限迴圈造成成本失控。
  • agent 產出難以 audit。

硬體讓 agent 跑得更快,治理要確保它不要更快地做錯事。

結論

NVIDIA Vera CPU 到貨的訊號很清楚:AI 基礎設施競爭正在從「誰有 GPU」變成「誰能支撐大量可行動 agent」。

在回答式 AI 時代,GPU 是焦點。在 agentic AI 時代,CPU、memory bandwidth、sandbox、tool calling、network、DPU 都會變成瓶頸的一部分。

對開發者與企業來說,這代表未來評估 AI 平台時,不只要問模型多強,也要問 agent 任務跑在哪裡、狀態怎麼保存、sandbox 多快、多安全、成本如何計算。

Vera 不是 AI 熱潮的旁支,而是 agent 時代基礎設施重組的一個早期標記。

參考資料

№ · further reading

延伸閱讀