回到頂部
Google TPU 第八代雙發 vs NVIDIA Nemotron Nano Omni:雲廠不再裝乖客戶

Google TPU 第八代雙發 vs NVIDIA Nemotron Nano Omni:雲廠不再裝乖客戶

Google Cloud Next 2026 端出 TPU 8t / 8i 雙發,Anthropic 5GW 是第一筆白老鼠訂單。NVIDIA 一週內反擊 Nemotron 3 Nano Omni——AI 算力供應鏈正在分裂。

4 月 22 日 Google Cloud Next 2026 同時發表 TPU v8t(訓練)與 TPU v8i(推論),首次明擺著走「不買 NVIDIA 也能蓋 AI 工廠」路線。一週後 4 月 28 日,NVIDIA 立刻丟出 Nemotron 3 Nano Omni——一個跑在 RTX 5090 / DGX Spark 上的多模態 Agent 模型,搶在 TPU v8i 還沒大規模出貨前,先把推論側「邊緣 + 桌面」的位置卡住。

兩件事看起來各做各的,但拉開時間軸看,是同一場戰爭的兩個前線。

📊 兩邊端出來的東西

項目Google TPU v8t/v8i(4/22)NVIDIA Nemotron 3 Nano Omni(4/28)
目標自家雲 + 對外賣算力守住開發者桌面 + 邊緣
規格亮點v8t 單 pod 9216 顆,FP8 達 42 ExaFlops多模態 4B 參數,RTX 5090 跑 60+ tok/s
生態JAX / PyTorch-XLA / vLLM 都支援TensorRT-LLM / NIM / NeMo 整合
第一個大客戶Anthropic 5GW、五年合約RTX / DGX Spark 開發者
算力定價比 H200 雲端便宜 35-45%上機就送,用 GPU 算

關鍵不在「誰跑分高」——這兩個東西其實打不到同一個位置。TPU v8 打的是雲端訓練 + 雲端推論的成本戰;Nemotron Nano Omni 打的是「Agent 不一定要走雲」的入口戰。


🔄 TPU 從自用變外賣,代表什麼

過去 10 年 Google 的 TPU 主要服務自家 Search、YouTube、Gemini——對外賣的版本(Cloud TPU)是「順便」。但 v8 世代開始,訊號完全反過來:

  • Anthropic 五年 5GW 訂單(估計 $250 億+)是首次有外部 AI 大廠把主力訓練從 NVIDIA 搬離
  • TPU v8i 推論卡單獨 SKU 上市,允許客戶只買推論不買訓練——這是過去 NVIDIA 才能做的事
  • Cloud Next 同步公佈 TPU 可運送到客戶 colo 機房(Google Distributed Cloud TPU),不只能用雲

這三件事加起來,讀法只有一個:Google 想當算力市場的第二供應商,不再只當 Gemini 的後勤。

對企業 CTO 來說,這意味著第一次有可能在 NVIDIA 體系外,複製出一條完整的 AI 訓練棧——JAX + TPU + GCS + Vertex AI。代價是放棄 CUDA 生態,但對只跑 LLM / 視覺模型的純應用商,CUDA 黏著度本來就在下降


⚔️ NVIDIA 的反擊邏輯:守住「Agent 跑桌面」

Nemotron 3 Nano Omni 表面是個 4B 參數小模型,但它的策略價值不在跑分。它是 NVIDIA 對「Agent 應用會不會全部跑雲端」這個問題的賭注。

如果 Agent 大量呼叫 = 大量推論 token,而所有推論都跑雲端——那 TPU 跟 NVIDIA 雲端打對打,NVIDIA 終會慢慢被擠壓。但如果 Agent 的相當比例可以跑在開發者桌面 / 公司 colo / 邊緣設備——那 RTX / DGX Spark / Jetson Thor 這條線就還有護城河。

Nano Omni 的設計細節支持這個策略:

  • 多模態原生(視覺 + 音訊 + 文本),意味著 Agent 不需要拆雲端 API 多次呼叫
  • TensorRT-LLM 4-bit 量化,4B 參數實測 RTX 5090 上跑 60+ tok/s,比同尺寸 Llama 4 nano 快 1.8 倍
  • NIM 容器化部署——企業 colo 機房可以一鍵裝起一個 Agent 推論節點

簡單說:NVIDIA 在賭「Agent 不會全部上雲」。


⚠️ 但兩邊都還有未解的問題

TPU v8 的隱憂:

  • JAX 生態仍小於 PyTorch,遷移成本對中型客戶仍高
  • Google 過去多次「自家硬體對外賣」都不算成功(Coral、Edge TPU),客戶對長期支援存疑
  • 5GW 對 Anthropic 是好事,但對 Google 也意味著內部 Gemini 訓練要排隊——兩邊客戶搶同一條供應線

NVIDIA 的隱憂:

  • 4B 多模態打不過 Gemma 4 多模態 + Apple Intelligence on-device 的組合
  • Nemotron Nano Omni 沒開源——RTX 開發者可以免費用,但商業部署要走 NIM(付費),這個切法在開源風氣濃的 Agent 社群不討好
  • DGX Spark 售價 $3,999——對個人開發者貴,對企業 colo 又比 H100 便宜得不夠多,卡在中間

💡 Mason 的判斷

這不是「TPU 打贏 NVIDIA」也不是「NVIDIA 反擊成功」。這是 AI 算力市場第一次出現「分流」訊號。

過去三年市場結構是:NVIDIA 賺所有 AI 算力的錢。未來三年看起來會變成:

場景主供應商第二供應商
超大規模 LLM 訓練NVIDIA H/B 系列TPU v8t(新進場)
雲端推論NVIDIA L 系列TPU v8i、AWS Trainium
桌面 / 邊緣 AgentRTX / DGX SparkApple Silicon、AMD Strix
公司 colo 機房DGX、HGXTPU Distributed(新進場)

每個格子都還是 NVIDIA 第一,但「第二供應商」這個欄位,過去三年是空的,現在開始有東西了

對企業而言,有第二供應商的最大好處不是省錢,是議價權。NVIDIA 過去能維持 70-80% 毛利,部分原因是客戶沒選擇。一旦 TPU、Trainium 任何一家做到「能用」,NVIDIA 的定價權會被壓縮——這個對 H/B 系列短期影響不大,但對 GTC 2026 預告的下一代會影響很多。


🎯 不同角色的建議

給 AI 產品 CTO:

  • 如果你還在純 NVIDIA 棧上跑訓練,現在開始評估雙棧成本(NVIDIA + TPU 或 Trainium),不是現在切,但要算清楚
  • 桌面 / 邊緣 Agent 是 2026 下半的真戰場——你的產品如果完全靠雲推論,客戶會在「冷啟動延遲」上抱怨。留一條 on-device fallback 路線,即使先不走

給投資 / 半導體觀察者:

  • NVIDIA 仍是最大贏家,但毛利率高峰可能已過——第二供應商出現後,定價權永遠回不到當年
  • TPU 對 Google 雲收入的貢獻會在 Q3-Q4 2026 開始反映。這是觀察 GCP 對 AWS / Azure 戰局轉變的關鍵指標
  • 千萬別賭「TPU 取代 NVIDIA」——CUDA 生態的黏性遠超晶片本身

給開發者:

  • JAX / PyTorch-XLA 值得學一下——不是急著切過去,是做為「以防 NVIDIA 太貴有後路」的選項
  • Nemotron Nano Omni 在 RTX 5090 上跑 60 tok/s 是目前 4B 多模態裡最強組合,做本地 Agent PoC 可以試
  • MCP / Agent 框架現在還鎖在「雲推論」的假設上——會跑邊緣的 Agent runtime 是未來 12 個月的好機會

❓ FAQ

TPU v8 真的能取代 H200 / B200 嗎?

訓練側可以,推論側看場景。FP8 ExaFlops 數字 TPU v8t 已經贏 H200 約 30%、跟 B200 接近。但這只是峰值——實際訓練效率取決於 interconnect、JAX 編譯品質、batch 形狀。

第三方 MLPerf 還沒跑,目前所有數字都是 Google 自報。Anthropic 願意下 5GW 訂單是強訊號,但他們是 Google 投資的對象,不能算完全獨立驗證。等 OpenAI / Meta / xAI 任何一家也下 TPU 訂單,才算真的進入主流選項。

Nemotron 3 Nano Omni 跟 Gemma 4 Nano、Phi-4 Mini 比呢?

跑分接近,差異在生態。Nano Omni 的優勢是 NIM 一鍵部署、TensorRT-LLM 加速最佳化、原生視覺音訊;Gemma 4 Nano 的優勢是開源權重、Hugging Face 生態完整;Phi-4 Mini 的優勢是 Microsoft 安全認證 + Azure 整合。

對開發者選哪個的標準是「你已經在誰的生態裡」——已經用 Azure 選 Phi、已經用 GCP 選 Gemma、已經用 RTX 桌面開發選 Nano Omni。沒有絕對贏家

「不買 NVIDIA 也行」是真的嗎?還是只是行銷話術?

對 LLM 純應用商真的可以——已經有客戶整套 JAX + TPU 跑 Gemma / Llama 衍生模型,跑得很順。對需要深度客製化 CUDA kernel 的工作流(機器人、量化交易、生命科學模擬)還是不行——這些領域 CUDA 生態的累積太厚。

實際分界:如果你的工作主要是「拿開源模型 fine-tune + serve」,NVIDIA 不是必須。如果你的工作涉及「自己寫 CUDA kernel + 多模態混合 + 異質運算」,NVIDIA 還是唯一答案。

Sources:

📚 延伸閱讀