Google TPU 第八代雙發 vs NVIDIA Nemotron Nano Omni：雲廠不再裝乖客戶

Q: TPU v8 真的能取代 H200 / B200 嗎？

**訓練側可以，推論側看場景**。FP8 ExaFlops 數字 TPU v8t 已經贏 H200 約 30%、跟 B200 接近。但這只是峰值——實際訓練效率取決於 interconnect、JAX 編譯品質、batch 形狀。 第三方 MLPerf 還沒跑，**目前所有數字都是 Google 自報**。Anthropic 願意下 5GW 訂單是強訊號，但他們是 Google 投資的對象，**不能算完全獨立驗證**。等 OpenAI / Meta / xAI 任何一家也下 TPU 訂單，才算真的進入主流選項。

Q: Nemotron 3 Nano Omni 跟 Gemma 4 Nano、Phi-4 Mini 比呢？

跑分接近，**差異在生態**。Nano Omni 的優勢是 NIM 一鍵部署、TensorRT-LLM 加速最佳化、原生視覺音訊；Gemma 4 Nano 的優勢是開源權重、Hugging Face 生態完整；Phi-4 Mini 的優勢是 Microsoft 安全認證 + Azure 整合。 對開發者選哪個的標準是「**你已經在誰的生態裡**」——已經用 Azure 選 Phi、已經用 GCP 選 Gemma、已經用 RTX 桌面開發選 Nano Omni。**沒有絕對贏家**。

Google Cloud Next 2026 端出 TPU 8t / 8i 雙發，Anthropic 5GW 是第一筆白老鼠訂單。NVIDIA 一週內反擊 Nemotron 3 Nano Omni——AI 算力供應鏈正在分裂。

發布：2026-05-05

中級 TPU NVIDIA Nemotron

4 月 22 日 Google Cloud Next 2026 同時發表 TPU v8t（訓練）與 TPU v8i（推論），首次明擺著走「不買 NVIDIA 也能蓋 AI 工廠」路線。一週後 4 月 28 日，NVIDIA 立刻丟出 Nemotron 3 Nano Omni——一個跑在 RTX 5090 / DGX Spark 上的多模態 Agent 模型，搶在 TPU v8i 還沒大規模出貨前，先把推論側「邊緣 + 桌面」的位置卡住。

兩件事看起來各做各的，但拉開時間軸看，是同一場戰爭的兩個前線。

📊 兩邊端出來的東西

項目	Google TPU v8t/v8i(4/22)	NVIDIA Nemotron 3 Nano Omni(4/28)
目標	自家雲 + 對外賣算力	守住開發者桌面 + 邊緣
規格亮點	v8t 單 pod 9216 顆，FP8 達 42 ExaFlops	多模態 4B 參數，RTX 5090 跑 60+ tok/s
生態	JAX / PyTorch-XLA / vLLM 都支援	TensorRT-LLM / NIM / NeMo 整合
第一個大客戶	Anthropic 5GW、五年合約	RTX / DGX Spark 開發者
算力定價	比 H200 雲端便宜 35-45%	上機就送，用 GPU 算

關鍵不在「誰跑分高」——這兩個東西其實打不到同一個位置。TPU v8 打的是雲端訓練 + 雲端推論的成本戰；Nemotron Nano Omni 打的是「Agent 不一定要走雲」的入口戰。

🔄 TPU 從自用變外賣，代表什麼

過去 10 年 Google 的 TPU 主要服務自家 Search、YouTube、Gemini——對外賣的版本(Cloud TPU)是「順便」。但 v8 世代開始，訊號完全反過來：

Anthropic 五年 5GW 訂單（估計 $250 億+）是首次有外部 AI 大廠把主力訓練從 NVIDIA 搬離
TPU v8i 推論卡單獨 SKU 上市，允許客戶只買推論不買訓練——這是過去 NVIDIA 才能做的事
Cloud Next 同步公佈 TPU 可運送到客戶 colo 機房(Google Distributed Cloud TPU)，不只能用雲

這三件事加起來，讀法只有一個：Google 想當算力市場的第二供應商，不再只當 Gemini 的後勤。

對企業 CTO 來說，這意味著第一次有可能在 NVIDIA 體系外，複製出一條完整的 AI 訓練棧——JAX + TPU + GCS + Vertex AI。代價是放棄 CUDA 生態，但對只跑 LLM / 視覺模型的純應用商，CUDA 黏著度本來就在下降。

⚔️ NVIDIA 的反擊邏輯：守住「Agent 跑桌面」

Nemotron 3 Nano Omni 表面是個 4B 參數小模型，但它的策略價值不在跑分。它是 NVIDIA 對「Agent 應用會不會全部跑雲端」這個問題的賭注。

如果 Agent 大量呼叫 = 大量推論 token，而所有推論都跑雲端——那 TPU 跟 NVIDIA 雲端打對打，NVIDIA 終會慢慢被擠壓。但如果 Agent 的相當比例可以跑在開發者桌面 / 公司 colo / 邊緣設備——那 RTX / DGX Spark / Jetson Thor 這條線就還有護城河。

Nano Omni 的設計細節支持這個策略：

多模態原生（視覺 + 音訊 + 文本），意味著 Agent 不需要拆雲端 API 多次呼叫
TensorRT-LLM 4-bit 量化,4B 參數實測 RTX 5090 上跑 60+ tok/s，比同尺寸 Llama 4 nano 快 1.8 倍
NIM 容器化部署——企業 colo 機房可以一鍵裝起一個 Agent 推論節點

簡單說：NVIDIA 在賭「Agent 不會全部上雲」。

⚠️ 但兩邊都還有未解的問題

TPU v8 的隱憂:

JAX 生態仍小於 PyTorch,遷移成本對中型客戶仍高
Google 過去多次「自家硬體對外賣」都不算成功(Coral、Edge TPU)，客戶對長期支援存疑
5GW 對 Anthropic 是好事，但對 Google 也意味著內部 Gemini 訓練要排隊——兩邊客戶搶同一條供應線

NVIDIA 的隱憂:

4B 多模態打不過 Gemma 4 多模態 + Apple Intelligence on-device 的組合
Nemotron Nano Omni 沒開源——RTX 開發者可以免費用，但商業部署要走 NIM（付費），這個切法在開源風氣濃的 Agent 社群不討好
DGX Spark 售價 $3,999——對個人開發者貴，對企業 colo 又比 H100 便宜得不夠多，卡在中間

💡 Mason 的判斷

這不是「TPU 打贏 NVIDIA」也不是「NVIDIA 反擊成功」。這是 AI 算力市場第一次出現「分流」訊號。

過去三年市場結構是：NVIDIA 賺所有 AI 算力的錢。未來三年看起來會變成：

場景	主供應商	第二供應商
超大規模 LLM 訓練	NVIDIA H/B 系列	TPU v8t（新進場）
雲端推論	NVIDIA L 系列	TPU v8i、AWS Trainium
桌面 / 邊緣 Agent	RTX / DGX Spark	Apple Silicon、AMD Strix
公司 colo 機房	DGX、HGX	TPU Distributed（新進場）

每個格子都還是 NVIDIA 第一，但「第二供應商」這個欄位，過去三年是空的，現在開始有東西了。

對企業而言，有第二供應商的最大好處不是省錢，是議價權。NVIDIA 過去能維持 70-80% 毛利，部分原因是客戶沒選擇。一旦 TPU、Trainium 任何一家做到「能用」,NVIDIA 的定價權會被壓縮——這個對 H/B 系列短期影響不大，但對 GTC 2026 預告的下一代會影響很多。

🎯 不同角色的建議

給 AI 產品 CTO:

如果你還在純 NVIDIA 棧上跑訓練，現在開始評估雙棧成本(NVIDIA + TPU 或 Trainium)，不是現在切，但要算清楚
桌面 / 邊緣 Agent 是 2026 下半的真戰場——你的產品如果完全靠雲推論，客戶會在「冷啟動延遲」上抱怨。留一條 on-device fallback 路線，即使先不走

給投資 / 半導體觀察者:

NVIDIA 仍是最大贏家，但毛利率高峰可能已過——第二供應商出現後，定價權永遠回不到當年
TPU 對 Google 雲收入的貢獻會在 Q3-Q4 2026 開始反映。這是觀察 GCP 對 AWS / Azure 戰局轉變的關鍵指標
千萬別賭「TPU 取代 NVIDIA」——CUDA 生態的黏性遠超晶片本身

給開發者:

JAX / PyTorch-XLA 值得學一下——不是急著切過去，是做為「以防 NVIDIA 太貴有後路」的選項
Nemotron Nano Omni 在 RTX 5090 上跑 60 tok/s 是目前 4B 多模態裡最強組合，做本地 Agent PoC 可以試
MCP / Agent 框架現在還鎖在「雲推論」的假設上——會跑邊緣的 Agent runtime 是未來 12 個月的好機會

❓ FAQ

TPU v8 真的能取代 H200 / B200 嗎？

訓練側可以，推論側看場景。FP8 ExaFlops 數字 TPU v8t 已經贏 H200 約 30%、跟 B200 接近。但這只是峰值——實際訓練效率取決於 interconnect、JAX 編譯品質、batch 形狀。

第三方 MLPerf 還沒跑，目前所有數字都是 Google 自報。Anthropic 願意下 5GW 訂單是強訊號，但他們是 Google 投資的對象，不能算完全獨立驗證。等 OpenAI / Meta / xAI 任何一家也下 TPU 訂單，才算真的進入主流選項。

Nemotron 3 Nano Omni 跟 Gemma 4 Nano、Phi-4 Mini 比呢？

跑分接近，差異在生態。Nano Omni 的優勢是 NIM 一鍵部署、TensorRT-LLM 加速最佳化、原生視覺音訊；Gemma 4 Nano 的優勢是開源權重、Hugging Face 生態完整；Phi-4 Mini 的優勢是 Microsoft 安全認證 + Azure 整合。

對開發者選哪個的標準是「你已經在誰的生態裡」——已經用 Azure 選 Phi、已經用 GCP 選 Gemma、已經用 RTX 桌面開發選 Nano Omni。沒有絕對贏家。

「不買 NVIDIA 也行」是真的嗎？還是只是行銷話術？

對 LLM 純應用商真的可以——已經有客戶整套 JAX + TPU 跑 Gemma / Llama 衍生模型，跑得很順。對需要深度客製化 CUDA kernel 的工作流（機器人、量化交易、生命科學模擬）還是不行——這些領域 CUDA 生態的累積太厚。

實際分界：如果你的工作主要是「拿開源模型 fine-tune + serve」,NVIDIA 不是必須。如果你的工作涉及「自己寫 CUDA kernel + 多模態混合 + 異質運算」,NVIDIA 還是唯一答案。

Sources: