NVIDIA Vera CPU 是什麼？AI Agent 為何還需要 CPU

NVIDIA Vera 有 88 個 Olympus cores、1.2TB/s 記憶體頻寬，主打 agent sandbox、tool calling 與資料處理。本文拆解規格、採用進度與企業該看哪些指標。

發佈於： 2026-05-31 | 更新於： 2026-07-13

進階 NVIDIA Vera Agentic AI AI Infrastructure

內容查核： 2026-07-13 來源查核： 2026-07-13

⚡ 重點摘要（TL;DR）

Vera 是 NVIDIA 第一款自研 custom CPU，規格為 88 個 Olympus cores、最高 1.2TB/s 記憶體頻寬，鎖定 agent orchestration、tool calling、sandbox、資料處理與 RL。
Agent 的模型推論主要吃 GPU，但模型呼叫之間的 code execution、API、file I/O、retrieval、compilation 與狀態管理大量依賴 CPU；慢 CPU 會增加 end-to-end latency，也可能讓 GPU 等待。
NVIDIA 已把 Vera 送交 Anthropic、OpenAI、SpaceXAI 與 OCI，並在 5 月底稱進入 full production；7 月公布更多採用訊號，但個別客戶的量產部署與成效要分開核對。
企業現在不必因新聞直接採購 Vera。先量測每個 agent task 的 CPU time、sandbox 啟動、tool latency、memory bandwidth、GPU idle 與單一完成任務成本，再決定瓶頸在哪。

你的 agent 等模型只花兩秒，clone repo、裝套件、跑測試、查資料與整理結果卻花兩分鐘。這時再買更多 GPU，不一定能讓任務變快；瓶頸可能在 CPU、memory、storage、network 或 sandbox。NVIDIA Vera 想處理的，就是模型呼叫之間這段「真的做事」的運算。

Vera 是 NVIDIA 第一款 custom CPU。NVIDIA 在 2026 年 5 月把首批系統交給 Anthropic、OpenAI、SpaceXAI 與 Oracle Cloud Infrastructure，5 月底又宣布 Vera 進入 full production。7 月 7 日的官方更新進一步把它定位成「max single-threaded CPU at scale」，強調 agent loop 裡的 tool calling、code execution、data processing 與結果分析。

Vera 規格和定位先看這張表

項目	NVIDIA 公布內容	解讀時要保留什麼
CPU	88 個自研 Olympus cores，Armv9.2 相容	core 數不是唯一指標，agent 常有序列與分支密集工作
Memory	最高 1.2TB/s LPDDR5X bandwidth	高頻寬有利大量並行與資料移動，實際收益依 workload
工作負載	orchestration、tool calling、sandbox、RL、analytics、long-context state	這些是定位，不代表每個 agent 都會加速相同比例
系統角色	standalone Vera server、Vera Rubin host CPU、BlueField-4 STX	NVIDIA 要賣的是整體 AI factory 架構，不只單顆 CPU
進度	full production；合作夥伴系統朝 2026 下半年供應	「送樣／評估／計畫採用／正式量產」要分開看

NVIDIA 宣稱 Vera 在 full load 下有更快的 per-core performance，並公布相較傳統 CPU 的效能與能源效率數字。這些數據適合當候選平台的測試假設，不宜直接換算成自家公司 agent 成本。模型、程式語言、套件、network、storage、sandbox image 與 concurrency 都會改變結果。

Agent 為什麼不只吃 GPU？

GPU 負責模型 training 與 inference 的大量矩陣運算；agent 完成任務還要反覆做 CPU 工作。coding agent 會解析 repository、啟動 runtime、compile、跑 test、壓縮檔案與管理 process。research agent 會呼叫 API、過濾資料、解析文件、建立索引與合併結果。多 agent 系統還要排程、傳遞訊息、管理狀態與處理失敗。

這些步驟常是序列的：測試沒完成，下一次模型呼叫就拿不到 error；API 沒回來，planner 不能決定下一步。CPU 慢會直接拉長整個 agent loop，不應只看單一 benchmark 分數。NVIDIA 的首批交付公告用「AI agents don’t run on GPUs alone」描述這個問題，方向合理，但每家公司的瓶頸仍要靠 tracing 證明。

最新採用進度代表什麼？

Anthropic、OpenAI 與 SpaceXAI 收到首批 Vera 系統，代表前沿 AI lab 正在測 agent、RL 與 simulation workload。SpaceXAI 被 NVIDIA描述為評估 reinforcement learning 與 agent-based simulation；「評估」不等於已把全部訓練或產品服務移到 Vera。

OCI 表示計畫自 2026 年開始部署數十萬顆 Vera CPU。NVIDIA 5 月底的新聞稿也列出更多 hyperscaler、系統製造商與 AI lab。7 月官方內容則提到 Perplexity 等採用訊號。這表示 ecosystem 正形成，但企業真正能買到的 server 型號、cloud instance、區域、價格與 SLA，要等各 partner 公告，不能從 CPU 新聞稿代推。

對台灣供應鏈而言，Vera 也不是孤立晶片。它會進入 Dell、HPE、Lenovo、Supermicro 與多家台灣 ODM／系統夥伴的 server，並作為 Vera Rubin、storage 與 networking 架構的一部分。想追整體平台節奏，可搭配 NVIDIA GTC 2026 驗證指南閱讀。

企業現在該量什麼？

第一，量 end-to-end task，不只量 tokens per second。從使用者送出任務到拿到可驗證結果，分別記錄 model latency、tool latency、sandbox startup、code execution、retrieval、queue 與人等待。

第二，看 CPU 是否讓 GPU idle。若 GPU 常等 data preprocessing、tool result 或 KV-cache／state 搬移，CPU 與 memory 可能在 critical path；若主要時間仍在 inference，先優化模型、batching 或 GPU。

第三，看單一成功任務成本。agent 失敗重試會同時消耗 token、CPU 秒數、sandbox、storage 與 network。硬體快一點，若成功率沒提高或重試更多，總成本未必下降。

第四，看部署條件。Arm 相容性、container image、native dependency、observability、security policy、資料位置與既有 x86 軟體都要驗證。benchmark 領先不代表 migration 沒成本。

第五，看權限與隔離。更快的 CPU 只會更快執行 agent 命令；prompt injection、tool misuse、sandbox escape、secret leakage 與無限迴圈仍要用最小權限、人工 gate、resource limit 與 audit log 控制。

若企業目前只是買 SaaS agent，不必指定底層 CPU。應向供應商追問完成任務的 latency、成功率、隔離、資料政策、重試、容量與價格。只有自建大量 sandbox、推論平台或 AI factory，Vera 與 x86、其他 Arm 平台的 workload benchmark 才會直接影響採購。

Vera 和 AI PC 是同一件事嗎？

不是同一個市場。AI PC 的 CPU／GPU／NPU 在個人裝置處理本機推論、應用與隱私；Vera 是資料中心 CPU，服務大量 agent、AI factory、RL、資料處理與 GPU host 工作。兩者共同訊號是 AI 系統已進入異質運算：模型之外，CPU、memory、network、storage 與軟體執行環境都會影響體驗。

資料中心也不能只看晶片 TDP。整體機架的 GPU、CPU、memory、network、power delivery 與 cooling 才決定容量，站內的 AI 資料中心電力瓶頸可用來補上能源與部署面。

現在可以下什麼結論？

Vera 已從 GTC 規格走到 full production 與客戶評估，證明 NVIDIA 把 agent CPU 視為獨立市場。88 cores、1.2TB/s memory bandwidth 與整合 Rubin／BlueField 的設計，對大量並行 sandbox、tool execution、資料處理與 GPU feeding 有明確意圖。

仍不能直接下結論的是：所有 agent 都會更快、每家公司都能降成本、NVIDIA 公布的倍率會原樣出現在你的 workload。最實用的做法，是先把 agent trace 拆開，找到 CPU critical path，再用自己的 repository、runtime、資料與 concurrency 比較候選平台。Vera 值得測，測量結果才值得買。

常見問題

NVIDIA Vera 是 GPU 嗎？

不是。Vera 是 NVIDIA 自研的資料中心 CPU，可獨立部署，也可作為 Vera Rubin 系統的 host processor，負責 orchestration、code execution、data movement 與其他 CPU 工作。

Vera 有多少核心與記憶體頻寬？

NVIDIA 公布 88 個 Olympus CPU cores，最高 1.2TB/s LPDDR5X memory bandwidth。規格能否轉成應用加速，仍要看實際 agent workload、軟體與並行度。

OpenAI 和 Anthropic 已正式大量使用 Vera 了嗎？

官方已確認首批系統交付，並將兩家公司列入評估或採用 ecosystem；公開資料沒有足夠細節證明其所有產品已大規模量產部署。交付、測試與全面上線要分開看。

企業現在需要採購 Vera 嗎？

多數企業不需要只因新聞採購。先量 CPU time、sandbox startup、tool latency、memory bandwidth、GPU idle 與成功任務成本；只有 CPU 在 critical path，才值得做 Vera 與其他平台的實測。

CPU 更快會讓 agent 更可靠嗎？

不會自動變可靠。CPU 可降低部分延遲，但 hallucination、prompt injection、tool misuse、權限、重試與 audit 仍是軟體和治理問題。

官方來源

№ · further reading