回到頂部
Claude Code、Codex 與 Antigravity 三種 AI coding agent 工作流的抽象比較封面圖

Claude Code vs Codex vs Antigravity 2026:AI Coding Agent 怎麼選?

Claude Code、OpenAI Codex、Google Antigravity 2.0 都是 2026 年最重要的 AI coding agent。本文用定位、工作流、任務矩陣、企業治理與搭配 SOP,幫你判斷哪個工具最適合。

如果你現在搜尋「Claude Code vs Codex vs Antigravity」,最容易看到的答案通常太快了:不是簡單表格,就是一句「看你習慣 terminal 還是 IDE」。

但 2026 年 6 月的情況已經不只是工具介面之爭。

Claude Code、OpenAI Codex、Google Antigravity 2.0 都在往同一個方向走:讓 AI agent 讀 repo、改檔、跑測試、看 diff、開 PR,甚至進入企業治理與雲端 sandbox。

真正要問的不是「誰比較會寫 code」,而是:

你要的是一個住在 terminal 的工程夥伴、一個管理多個 agent 的指揮中心,還是一套可部署、可 API 化、可託管的 agent runtime?

這篇會用這個角度重新比較三者。


60 秒結論:三者差在哪?

工具一句話定位最適合誰
Claude Codeterminal-first 的 AI 工程師已經熟 git、CLI、測試、repo 結構,想把大型工程任務交給 agent 的開發者
OpenAI Codex多 agent 指揮中心要同時管理多個任務、看 diff、跑 cloud/local/remote workflow 的個人與團隊
Google Antigravity 2.0Google 的 agent runtime 與 managed sandbox 平台想把 agent 放進 Google Cloud、Gemini API、SDK 或企業平台的團隊

如果用不同判準選:

你的判準或情境優先選
高難度 repo、任務規劃、想少操心Claude Code
內容網站、文章配圖、封面圖、SEO 圖解Codex
多 repo、多 issue、平行任務、團隊協作Codex
Google Cloud/Gemini 生態、managed agent、產品化 sandboxAntigravity
只能包一種 US$200/月方案Codex
不考慮預算,想把三者搭起來Claude Code 規劃任務,Codex 生圖/debug/review,Antigravity 觀察平台化
你還是新手,只想快速改 UI其實可以先看 Cursor,不一定從這三個開始
你是工程主管,要導入企業 AI coding agent先用 Codex/Claude Code 做 PoC,再評估 Antigravity 的平台化價值
Claude Code、Codex 與 Antigravity 的 AI coding agent 定位比較,分別對應終端機工程體驗、多代理指揮中心與雲端沙箱託管執行平台
三者最重要的差異不是模型名稱,而是工作流入口:Claude Code 抓 terminal,Codex 抓多 agent 協作,Antigravity 抓 sandbox runtime 與平台化部署。

Mason 一個月高階方案實測:三者的性格差與 CP 值

先講我的測試背景:這三套我都不是只看 demo,也不是只試免費額度。我自己都付費用過約 US$200/月等級的方案,拿來處理真實內容站、真實 repo、圖片工作流、SEO 優化、build、git、部署與跨檔修改。

所以這裡不是 benchmark,而是很主觀、但對日常工作更有用的體感:

工具與模型體感我的比喻真實工作中的感覺
Claude Code Opus 4.7名校畢業的高材生指定一個任務後,它常會自己把路上遇到的困難清掉。它會舉一反三,看到缺檔、壞路徑、build warning、格式問題,通常會主動追到一個能交付的狀態。
Codex 搭配 GPT-5.5 以上木訥但穩的老員工叫它做一件事很穩,diff、測試、流程感都好,但它通常不會自己多做。你要把任務拆清楚,否則它常常做到剛好及格就停。偶爾偷懶時,也比較容易被你從 diff 或測試結果抓到。
Gemini 3.1 Pro/Antigravity還在校的實習生適合打雜、整理資料、試平台概念、做一些不太危險的探索;但如果要它獨立扛大型 repo 任務,我目前不會放心。它的長期價值比較像 Google agent 平台,而不是今天就取代主力 coding agent。

Claude Code 最可怕的地方不是它會寫 code,而是它很像真的理解你要交付什麼。你給它一個任務,它常會順手把附近會阻礙交付的東西也清掉,這對內容網站維護、跨檔重構、圖片路徑與插圖位置整理、內鏈、build 修正非常省心。

但反過來,它也有最危險的一面:如果它真的誤導你,你不一定會立刻發現。 因為它講得很完整、很像真的知道整個 repo,甚至會把錯誤包裝成很合理的工程判斷。用 Claude Code 時,我會更堅持看 diff、跑 build、查引用、檢查它有沒有改到不該改的檔案。

Codex 的體感比較像老員工:不花俏、不太主動,但穩。它很適合被你明確指揮:先做 A、再驗 B、最後推 main。Claude Code 能做的事,Codex 基本也都能做;差別是 Claude 比較會自己補路,Codex 則更需要你把任務邊界、驗收標準、檔案範圍、測試指令交代清楚。

換句話說,Codex 不是能力不夠,而是比較吃使用者的管理能力。你願意多花一點心力拆任務、看 diff、追驗收,它就能用更高 CP 值做掉很多工作,也很適合拿來做 review、平行任務、或在 app 裡管理多個 agent thread。

Gemini 3.1 Pro/Antigravity 目前我會放在比較保守的位置。它不是完全沒用,而是我不會把核心 repo 任務交給它單獨跑。它比較適合做資料整理、初步研究、平台測試,或觀察 Google 之後把 managed agent、sandbox、SDK、API 做到什麼程度。

所以如果用人來比喻:

  • Claude Code 是你可以交辦大任務的高材生,但你要防它太有自信。
  • Codex 是你可以穩定派工的老員工,能做的事很多,但你要把需求寫清楚、驗收做確實。
  • Antigravity 現階段比較像實習生加上實驗平台,適合觀察與低風險任務。

這也是為什麼我的結論不是「誰模型分數最高」,而是「你要不要讓它獨立承擔真實交付責任」。

另一個面向是 CP 值。這同樣只是我的主觀體感,不是正式 benchmark,也會受到 repo 類型、任務切法、prompt、審稿標準與你自己的熟練度影響。

如果同樣抓 US$200/月左右的高階方案,我會這樣估:

同價位產能體感一週能做多少事我的解讀
Claude Code Opus 4.710 件單件任務品質高,會主動清掉周邊阻礙,適合重要任務與深度 repo 工作;但單位成本體感較高,也更需要人類 review。
Codex GPT-5.515-20 件產能體感最高,尤其適合多任務、平行 thread、明確交辦、review 與推送流程。它不一定最會舉一反三,但同價位能完成的工作量很漂亮。
Antigravity 掛 Opus 4.6約 5 件以目前體感來說,單純拿來做日常 coding agent 不划算;比較像為了觀察 Google agent 平台、managed sandbox 或特定生態整合而付費。
Antigravity/Gemini 3.1 Pro不列入重要工作估算雖然可以用 Gemini,但我不敢拿它處理比較重要的 repo 任務。若你的工作品質要求能接受 Gemini,大概也未必需要包到 US$200/月等級方案。

所以如果只問「同樣 200 美金,誰讓我做最多事」,我的答案會偏 Codex。
如果問「哪個最像能獨立扛高難度任務」,我仍然會偏 Claude Code Opus 4.7。
如果問「Antigravity 值不值得」,答案要看你是不是在買 Google agent 平台的未來,而不是只買今天的 coding 產能。

還有一個很容易被忽略的面向:生態與跨裝置工作流。

Claude 這裡做得比我預期更完整。Claude in Chrome 目前我沒遇到什麼大問題;手機 app 控制電腦 coding 的流程,在我用過的幾套裡是最順的。更重要的是,我可以用 B 電腦開桌面版 Claude,去控制 A 電腦上的 coding 工作。這件事對我非常方便,因為我不一定永遠坐在同一台機器前面,但我希望 agent 可以接著跑同一個 repo。

Codex 明顯也在這件事上下了很多工夫,也能用手機控制電腦工作;只是我的體感是設定比較複雜,手機 app 的順暢度也還不如 Claude。至於能不能像 Claude 那樣用 B 電腦很無腦地控制 A 電腦,我不排除設定後可以做到,但 Claude 的優勢是它不需要我研究太久,打開就能用。

長任務的上下文管理也是一個差異。Claude 的自動上下文壓縮目前比較完善,我還沒遇到明顯的大問題;長任務跑久了,它通常還能抓住原本的任務脈絡。Codex 也會自動壓縮上下文,但我遇過它開始忘東忘西的情況,所以有時要主動叫它記下目前決策、檔案狀態、下一步和不要動哪些東西。

桌面版順暢度也偏 Claude。Claude 桌面版長時間用起來比較穩,Codex 如果上下文太多、thread 太長,體感上比較容易卡頓。這不是不能用,但會讓你更常想整理 thread、重開任務,或把重要決策寫進 repo 文件,減少它靠對話記憶撐太久。

中文表達則是 Codex 稍微好一點。Claude 的中文不是不能用,但偶爾會跑出很像英文直翻的美式文法,AI 感比較重;如果是文章語氣、標題、中文段落順讀度,Codex 的輸出相對自然一些。不過兩者真的要上站,我還是會人工順一次,尤其是帶個人觀點的段落。

不過 Codex 仍然瑕不掩瑜。它的多 agent、debug、review、推送流程已經夠強,加上 Image 2.0 對內容站、文章配圖、封面圖與視覺輔助非常加分。這讓 Codex 不只是 coding agent,而是更接近「內容站與軟體工作流的總工具箱」。

所以如果你問我只能包一種 US$200/月方案,我現在會選 Codex。
如果不考慮預算,我會讓 Claude 負責規劃任務、拆解風險、處理高難度 repo 判斷,再讓 Codex 負責生圖、debug、review、多任務與推送。
至於 Gemini 呢?coding 重要任務我仍然不會交給它,但 Google 方案還是有一個很實在的日常價值:可以去除 YouTube 廣告。


讀者真正想知道什麼?

搜尋「Claude Code vs Codex vs Antigravity」的人,大多不是在做學術比較,而是在做一個很現實的決策:

  1. 我現在該把時間投在哪個工具?
  2. 哪個最適合真實 repo,不只是 demo?
  3. 哪個最適合公司導入?
  4. 哪個比較不容易把檔案改壞?
  5. Claude Code、Codex、Antigravity 能不能搭配用?
  6. 如果我已經用 Cursor 或 Copilot,還需要這三個嗎?

很多比較文的問題是:把它們當成同一類 AI IDE 排名,但這會誤導。

Claude Code 本質上是 agentic CLI。Codex 正在變成跨 app、CLI、IDE、cloud、mobile、Remote SSH 的 agent workflow。Antigravity 2.0 則是 Google 把 agent harness、sandbox、API、SDK 與 Managed Agents 打包成平台。

所以這篇不會只問「誰最強」。我會問:哪一種工作流最適合你。


Claude Code 是什麼?

Claude Code 是 Anthropic 的 agentic coding system。官方定位很直接:它可以讀 codebase、跨檔修改、跑測試,最後交付 committed code。

它最重要的產品形狀是 terminal-first。

這代表 Claude Code 的核心不是 IDE 裡的補全,而是讓 agent 在你的工程環境中工作:

  • 讀 repo、搜尋檔案、理解架構
  • 編輯多個檔案
  • 跑 shell command、git、測試、build
  • 依錯誤輸出繼續修正
  • 透過 CLAUDE.md 記住專案規則
  • 用 MCP 連外部工具
  • 用 Skills 封裝重複工作流
  • 用 Hooks 在工具呼叫前後做安全與品質守門
  • 用 Subagents 分派平行任務

Claude Code 的魅力在於:它很像坐在你 terminal 裡的工程師。

你不需要把上下文搬去某個網頁,也不需要一直貼 code。它直接在 repo 旁邊理解、改動、驗證。

Claude Code 的強項

強項為什麼重要
Terminal 原生和 git、test、build、package manager、CLI tool 貼得很近
Repo reasoning適合跨檔案、跨模組、需要理解架構的任務
Plan / verify 工作流先規劃、再改、再跑測試,適合中大型任務
Hooks可攔截危險指令、跑 lint、記錄 audit trail
Subagents大任務可拆成多個獨立工作流
MCP 生態容易接資料庫、文件、內部工具與瀏覽器自動化

Claude Code 的弱點

弱點實際影響
GUI 與視覺 diff 不是主戰場前端 UI 微調、像素級調整會比較不直覺
多任務管理要自己整理可以開多 session,但沒有 Codex app 那種 command center 感
太貼近本機環境權限、路徑、secrets、production config 要自己守好
新手門檻較高不熟 terminal、git、測試的人會比較容易迷路

Mason 的用法

如果我要讓 AI 幫我維護這種 Astro 內容站、改 Markdown、跑 build、檢查 git diff、補圖片路徑、處理大量內鏈,Claude Code 會是最自然的主力工具。

原因不是它永遠寫得最好,而是它和 repo 的距離最短。


OpenAI Codex 是什麼?

Codex 現在已經不是早期「自然語言轉程式碼」的舊印象。

2026 年的 Codex 更像一個 AI coding agent 平台,橫跨:

Surface適合情境
Codex app管理多個 agent thread、平行任務、看 diff、comment 變更
Codex CLIterminal 裡和 Codex 協作,類似 Claude Code 的入口
IDE extension在編輯器內派任務、看結果
Codex Cloud把較長任務交給雲端 agent
ChatGPT mobile在手機上看進度、批准、改方向
Remote SSH連到受管遠端開發環境,適合企業 devbox

OpenAI 自己把 Codex app 稱為 agent command center。這個詞很關鍵。

Codex 的野心不是只做一個 CLI,而是讓你同時管理多個 agent,讓它們在不同 worktree、不同 thread、不同任務上平行工作,然後你像 tech lead 一樣看 diff、留言、批准、合併。

Codex 的強項

強項為什麼重要
多 agent threads適合同時跑 bug fix、測試、文件、研究、重構
Worktree 支援多個 agent 可在同 repo 平行探索,不互相污染
App/CLI/IDE/cloud/mobile工作流入口多,不被單一介面綁死
Remote SSH可接企業受管環境,不一定要每個人本機亂跑
Sandbox 與 approvals比單純聊天工具更接近可治理的工程流程
OpenAI 生態ChatGPT、API、企業帳戶、工作區政策容易整合

Codex 的弱點

弱點實際影響
產品面向多,學習面也分散app、CLI、IDE、cloud 的最佳用法不同
個人單一 repo 小任務未必比 Claude Code 快如果你只想 terminal 裡深度處理一件事,Claude Code 更直接
團隊治理要設計流程多 agent 很強,但沒有 PR 規則、測試與 review,會放大混亂
Cloud task 帶來資料與權限問題企業要明確定義哪些 repo、secrets、環境可被 agent 接觸

Mason 的用法

Codex 最適合做「第二層」。

日常我可能用 Claude Code 主跑 repo 內任務,但在幾種情況會想加 Codex:

  • 同時要比較兩種實作方案
  • 需要另一個 agent 做 review
  • 要把長任務丟到 cloud 或 remote environment
  • 需要從手機看進度、批准或改方向
  • 團隊要把 AI coding agent 管成正式流程,而不是每個人各玩各的

換句話說,Codex 的強項是監督與協調,不只是親自寫 code。


Google Antigravity 2.0 是什麼?

Antigravity 2.0 很容易被誤解成「Google 版 Cursor」或「Gemini CLI 改名」。

這樣看太小。

Google 在 2026 年 5 月把 Antigravity 2.0 推到更大的形狀:桌面 app、CLI、SDK、API、Google AI Studio templates、Gemini API Managed Agents、企業平台。

Google 的 Managed Agents 讓開發者用 API 啟動一個能推理、用工具、執行程式碼的 agent,並且跑在隔離、短暫存在的 Linux sandbox。開發者也可以用 AGENTS.mdSKILL.md 這類可版本化檔案定義 agent 的指令、技能與資料。

這代表 Antigravity 的核心不是「編輯器比較好用」,而是 Google 想掌握 agent runtime:

  • agent 在哪裡執行
  • sandbox 怎麼隔離
  • 檔案與工具怎麼管理
  • session 狀態怎麼保留
  • API/SDK 怎麼接進產品
  • 企業怎麼部署、控管與稽核

Antigravity 的強項

強項為什麼重要
Cloud sandbox可把 agent execution 和本機環境隔開
Managed Agents不必自己架 sandbox、orchestrator、state management
API/SDK適合把 agent 能力產品化,而不是只給工程師用
Google Cloud/Gemini 生態對已在 Google 技術棧的團隊更自然
AGENTS.mdSKILL.mdagent 指令與技能可版本化、可團隊共享
平台化方向明確比單一 IDE 更像未來 agent infrastructure

Antigravity 的弱點

弱點實際影響
產品變動期2.0 仍在快速成形,工作流與遷移成本要觀察
個人日常 coding 未必最省事如果只是修 bug,Claude Code 或 Codex CLI 可能更直接
容易被 Google 生態綁住agent skills、runtime、API、帳務與平台會形成遷移成本
成熟度要用真 repo 測看起來很平台,但要驗證 MCP、plugins、sandbox、CI、權限是否穩

Mason 的用法

Antigravity 我不會拿來取代 Claude Code。

我會把它看成兩種情境的候選:

  1. 想試 Google 最新 coding agent 能力與 Gemini 生態。
  2. 想把 agent 做成產品或內部平台,而不是只在本機 terminal 用。

這個差別很大。個人開發者要的是快,平台團隊要的是可部署、可控、可擴展。


核心比較表:不要再只看「誰比較會寫 code」

面向Claude CodeCodexAntigravity 2.0
核心定位Terminal-first coding agent多 agent command centerAgent runtime/managed sandbox platform
最自然入口Terminal、IDE、desktop、webApp、CLI、IDE、cloud、mobile、Remote SSHDesktop app、CLI、SDK、API、AI Studio
最強工作深度 repo 任務、跨檔重構、測試迭代多任務、多 agent、diff review、團隊流程雲端 sandbox、managed agent、平台整合
個人開發者上手中等,需要熟 CLI中等,app 對多任務較友善中等偏高,概念較平台化
前端視覺微調普通普通到中等,視 surface 而定視 app/IDE 工作流成熟度
多 agent 管理可做,但比較工程化產品主軸之一平台主軸之一
本機控制感中到強,可 local/remote/cloud中,重點在 managed runtime
企業治理需搭配政策、hooks、MCP、環境管理強調 sandbox、approval、workspace、Remote SSH強調 managed agents、企業平台與 Google Cloud
生態依賴Anthropic/Claude/MCPOpenAI/ChatGPT/Codex surfacesGoogle/Gemini/Cloud/Antigravity harness
最大風險本機權限與過度放權多 surface 與 cloud 權限治理平台鎖定與產品變動

一句話:

Claude Code 是工程師工具,Codex 是協作控制面,Antigravity 是平台野心。


任務勝負矩陣:什麼任務誰比較適合?

任務Claude CodeCodexAntigravity
讀陌生 repo,整理架構⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
修 failing test⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
跨 10+ 檔重構⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
同時跑 3 個不同 issue⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
讓另一個 agent review diff⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
把任務丟到 cloud sandbox⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
企業受管 remote devbox⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Google Cloud/Gemini 產品整合⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
個人 terminal workflow⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
建立可版本化 agent skill⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
前端小 UI 微調⭐⭐⭐⭐⭐⭐⭐⭐
非工程師做內部工具⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

這張表不是絕對分數,而是工作流匹配度。

例如跨檔重構不是 Codex 做不到,而是 Claude Code 的 terminal-first 心智模型更直接。反過來,多任務管理不是 Claude Code 做不到,而是 Codex app 原生就把它做成主介面。


怎麼選?用這棵決策樹

先問第一題:你要 agent 在哪裡工作?

1. 你主要在本機 repo 裡工作嗎?

如果答案是「對,我每天就是 git、terminal、test、build」:

優先選 Claude Code。

它最像你熟悉的工程流程延伸。尤其你已經知道怎麼看 diff、怎麼跑 test、怎麼限制檔案範圍,Claude Code 會很快變成工作肌肉記憶。

2. 你常常同時管理多個 issue 嗎?

如果你每天要處理:

  • 一個 bug fix
  • 一個文件更新
  • 一個測試補強
  • 一個 PR review
  • 一個 research task

那 Codex 會更有價值。

因為這時候問題不是 agent 能不能改 code,而是你能不能監督多個 agent 不互相踩線。

3. 你要把 agent 能力接進產品或企業平台嗎?

如果你不是只想自己寫 code,而是想:

  • 在產品裡提供 agent execution
  • 讓 agent 跑在雲端 sandbox
  • 用 API 啟動、恢復、管理 agent session
  • 把 agent skills 版本化
  • 接 Google Cloud 或 Gemini Enterprise Agent Platform

那 Antigravity 2.0 值得認真看。

它不是最輕的個人工具,但它可能是最像「平台」的那一個。

4. 你完全不熟 terminal 嗎?

那這三個都不一定是第一步。

如果你只是剛開始用 AI 寫 code,想快速看到畫面、改 UI、做 prototype,Cursor 或 Copilot 可能更適合當入門工具。

等你開始需要跨檔重構、跑測試、處理 PR、設計 agent workflow,再回來看 Claude Code、Codex、Antigravity。


個人開發者:最實際的選法

個人開發者的核心不是「工具最完整」,而是「每天有沒有真的用得上」。

如果你是全職工程師

我的建議是:

  1. Codex 當付費主力。
  2. Claude Code 當高難度規劃與省心任務工具。
  3. Antigravity 當新平台觀察與特定 Gemini/Google Cloud 任務。

原因很簡單:全職工程師每天最多的工作不是從零生成 app,而是讀現有 code、修 bug、跑測試、review diff、處理 edge cases。

Claude Code 很適合這個節奏,因為它比較會自己補路、自己追到可交付狀態。

但 Codex 也能做這些事,只是使用者要多付出一點管理心力:把任務拆清楚、限制檔案範圍、要求它跑測試、檢查 diff、確認它沒有只做到剛好及格。若你願意這樣管理,Codex 的多 agent、cloud task、remote devbox、手機批准、diff comment,加上 Image 2.0,整體 CP 值會更高。

Antigravity 可以試,但除非你的工作重心在 Google 生態或 agent 產品化,不然不需要急著全面搬家。

如果你是獨立開發者/接案者

如果你接的是高風險 repo、金流、權限、migration 或大型重構,Claude Code 仍然最省心。

接案最怕的是 AI 幫你快寫一堆,但你不知道它改了什麼。Claude Code 搭配 git diff、測試、build、commit workflow,控制感比較強。

但如果只能包一種 US$200/月方案,我會偏 Codex。原因不是 Codex 比 Claude Code 更會自動補路,而是它能做 Claude Code 大多數 coding 任務,只要你願意更勤勞地拆任務與驗收;再加上它在多任務、review、debug、推送與生圖上的加總價值,接案者其實很容易把成本賺回來。

Codex 特別適合用在:

  • 同時做多個客戶 repo
  • 讓 agent 幫你準備 PR 摘要
  • 做上線前 review
  • 讓長任務在你離開電腦時繼續跑

Antigravity 則適合你想做一個可商品化的 agent service,而不是純接案開發。

如果你是內容網站/AI 工具站站長

像我這種會同時處理文章、圖片、SEO、內鏈、build、git、部署的人,Codex 更適合當付費主力。

關鍵原因是生圖。Claude 很適合幫你規劃文章、拆 SEO 任務、檢查內文邏輯、處理 repo 裡的文字與 build;但 Codex 的 Image 2.0 對內容網站太重要了。文章封面、內文輔助圖、比較表視覺化、流程圖、工具截圖替代圖,這些都直接影響讀者理解與點擊體感。

Codex 在內容站會同時吃到三種價值:

  • 生圖任務:幫文章補封面、圖解、比較圖與視覺輔助。
  • 批量任務:同時讓多個 agent 處理不同文章優化。
  • Review 任務:讓另一個 agent 檢查標題、內鏈、FAQ、sources、build 風險。

所以內容網站這種場景,我不會只問「哪個 coding agent 比較省心」。我會問:「哪個工具能同時幫我寫、改、查、debug、review、推送,還能把文章需要的圖做出來?」用這個判準看,Codex 很明顯更像主力。

Antigravity 的價值比較像研究題目:如果 Google 把 Managed Agents 做成熟,未來可能用來跑自動化內容流程、資料整理、監控與內部 agent pipeline。


團隊與企業:不要只問工程師喜歡哪個

企業導入 AI coding agent,最常犯的錯是拿個人開發者的喜好當採購標準。

個人問的是:

  • 好不好用?
  • 改得快不快?
  • 跑測試順不順?

企業還要問:

  • 哪些 repo 可以被讀?
  • agent 能不能碰 secrets?
  • 能不能限制 network access?
  • 能不能接受管 devbox?
  • approval gate 怎麼設?
  • audit log 到哪裡?
  • AI 產生的 PR 怎麼標記?
  • 出事時誰負責?
  • 成本怎麼切到 team/project?
  • 能不能接現有 CI/CD、Jira、GitHub、GitLab、Slack?

企業選型表

企業需求優先看
工程師快速採用Claude Code、Codex CLI
多 agent 工作流管理Codex app
遠端受管開發環境Codex Remote SSH
本機與 repo 規則深度整合Claude Code + Hooks + CLAUDE.md
Google Cloud/Gemini 平台整合Antigravity Managed Agents
agent execution 平台化Antigravity、Codex Cloud
多工具並存治理另建 Agent 365/UiPath/內部 policy 層

我會怎麼做 PoC?

不要拿 demo repo。

拿一個真實但低風險的內部 repo,設計 6 個任務:

  1. 讀 repo,產出架構說明。
  2. 修一個已知 failing test。
  3. 補一組 unit test。
  4. 改一個小 bug,要求產生 PR summary。
  5. 做一次 security/permission review。
  6. 故意放一個會誘惑 agent 越權的任務,看 approval 與 policy 能不能擋。

然後比較:

  • 完成時間
  • 人類 review 時間
  • 測試通過率
  • 不必要改動數
  • 需要人工救火次數
  • 權限違規次數
  • 產出 PR 是否容易 review

企業真正該買的不是「看起來最聰明的 agent」,而是「最容易被流程承接的 agent」。


能不能三個都用?

可以,而且這反而是成熟用法。

不要把它想成宗教站隊。AI coding agent 最實際的玩法是分工。

Mason 建議的搭配 SOP

階段工具做什麼
任務拆解Claude Code 或 Codex先讀 repo,列出計畫與風險
主實作Claude Code在本機 branch 改檔、跑測試、整理 diff
平行探索Codex讓另一個 agent 嘗試 alternative implementation
ReviewCodex 或 Claude Code 第二 session檢查安全、測試、邏輯、文件、PR 摘要
平台化實驗Antigravity測試 cloud sandbox、managed agent、API workflow
團隊導入Codex/Antigravity/內部治理把 agent 納入 approval、audit、CI/CD

一個真實工作流範例

假設你要把一個 SaaS 專案的 billing module 重構:

  1. 先用 Claude Code 讀 repo,要求只分析,不改檔。
  2. 要 Claude Code 產出 migration plan、測試策略、rollback plan。
  3. 開新 branch,讓 Claude Code 改第一版。
  4. 跑 test、lint、type check。
  5. 丟給 Codex 做 adversarial review:檢查金流、權限、edge cases。
  6. 如果有兩種方案不確定,讓 Codex 開另一個 worktree 平行嘗試。
  7. 若要做成可重複 agent workflow,再研究 Antigravity 的 AGENTS.mdSKILL.md 與 Managed Agents。

這樣用,比問「哪個工具最強」更接近真實工程。


價格與成本:不要只看月費

這三個工具的定價、配額、plan、promotion 都會變,所以我不建議把文章寫死成「誰每月幾美元最划算」。

更穩的算法是看總成本:

成本項目你要問的問題
個人訂閱每個工程師要幾個 seat?是否需要 Pro/Max/Team/Enterprise?
Usage/credits重度使用是否會碰 limit?cloud task 是否另計?
API/SDK如果用 Antigravity 或 Codex 做產品化 agent,API 成本怎麼算?
Review 成本agent 產出的 PR 是否讓人更快 review,還是增加負擔?
錯誤成本agent 改錯權限、金流、migration 的風險多高?
管理成本IT、資安、DevOps 要花多少時間設 policy、audit、sandbox?
遷移成本技能、規則、workflow、hooks 是否綁死某一平台?

我自己的判斷是:

個人開發者不要為了省 20 美元選錯主力工具。真正的成本是你每天的心智負擔。

企業則相反,不要因為工具單價便宜就全公司開。真正的成本是治理、review、資料外洩與錯誤部署。


安全與 EEAT:AI coding agent 最容易出事的地方

Claude Code、Codex、Antigravity 都在強調安全、sandbox、approval 或 managed environment。但你不能只靠官方預設。

最低限度,任何團隊導入前都要有這 10 條規則:

  1. agent 不得直接操作 production。
  2. secrets、金鑰、憑證、.env 要明確排除或遮蔽。
  3. 修改權限、金流、認證、資料庫 migration 必須人工批准。
  4. 每個 agent 任務都要有 branch 或隔離環境。
  5. AI 產生的 PR 要標記,不能混成人類 commit。
  6. 所有 agent 改動都必須跑 lint、type check、test。
  7. 大型重構必須先產出 plan,不能直接改。
  8. agent logs、tool calls、approval records 要可追蹤。
  9. 禁止把客戶資料貼進不合規的 cloud task。
  10. 出事時以人類 reviewer 和 repo owner 負責,不把責任推給 AI。

這也是為什麼我不太喜歡「AI coding agent 誰最強」這種問法。

越強的 agent,越需要邊界。


Mason 的最終建議

2026 年的 AI coding agent 不會只剩一個贏家。

Claude Code、Codex、Antigravity 代表三種路線:

  • Claude Code:工程師信任與 terminal 工作流。
  • Codex:多 agent 協作與跨 surface 控制面。
  • Antigravity:managed sandbox、API、SDK 與平台化 agent runtime。

如果你只問「哪個最適合扛高難度 repo 任務」,我會先選 Claude Code。它和真實 repo 的距離最近,也最像能幫你規劃、拆任務、清掉路上障礙的工程夥伴。

但如果問題變成「只能包一種 US$200/月方案」,我會選 Codex。不是因為它每一件事都比 Claude Code 強,而是同價位下的工作量、Image 2.0、debug、review、多任務與跨裝置工作流加總起來,CP 值最高。

我的理解是:Claude Code 能做的事,Codex 大多也能做,只是 Codex 需要你更像主管一樣拆任務、設邊界、看 diff、盯驗收。Claude 比較像把你少操的心變成產品能力;Codex 則是把更大的工具箱和更高產能交給你,但管理責任也更多。

如果你是 tech lead 或小團隊,我也會優先把 Codex 放進評估。不是因為它一定寫得比 Claude Code 好,而是多任務、多 agent、worktree、review、Remote SSH 這些東西更像團隊流程。

如果你是平台團隊、AI 工具創業者、Google Cloud 用戶,我會認真看 Antigravity。它的價值不是今天幫你多補幾行 code,而是 Google 正在把 agent execution 變成雲端平台能力。

如果不考慮預算,我自己的搭配會是:Claude Code 負責規劃任務與高難度判斷,Codex 負責生圖、debug、review、多任務與推送;Antigravity/Gemini 則放在 Google 生態與平台觀察的位置。

最重要的是:不要把規則、測試、文件、任務拆解全部鎖在某個工具裡。

把關鍵流程留在 repo:

  • README
  • AGENTS.md
  • CLAUDE.md
  • 測試指令
  • build 指令
  • PR checklist
  • coding conventions
  • security policy

這樣不管你今天用 Claude Code、明天用 Codex、後天測 Antigravity,agent 都能讀懂你的工作方式。

工具會換,但 repo 裡的規則會留下來。


FAQ

Claude Code、Codex、Antigravity 哪個最強?

沒有單一最強。Claude Code 最適合 terminal-first 與深度 repo 任務;Codex 最適合多 agent、多任務、diff review 與團隊工作流;Antigravity 2.0 最適合 Google Cloud/Gemini 生態、雲端 sandbox 與 managed agent 產品化。

如果只能選一個,Mason 推哪個?

如果只看高難度 repo 任務,我會選 Claude Code;但如果只能包一種 US$200/月方案,我會選 Codex,因為它的同價位產能、Image 2.0、debug、review、多任務與跨裝置工作流加總起來 CP 值最高。不考慮預算時,我會讓 Claude Code 做規劃與高難度判斷,Codex 做生圖、debug、review 與推送。

Codex 可以取代 Claude Code 嗎?

多數任務可以,但心智模型不同。Claude Code 比較省心,常會自己把路上阻礙清掉;Codex 也能做這些事,但你要更清楚地拆任務、限制範圍、看 diff、跑驗收。若你只在 terminal 裡處理單一高難度 repo,Claude Code 仍然很自然;若你要同時管理多個任務,或需要文章配圖、封面圖、debug、review、推送整合,Codex 會更有優勢。

Antigravity 2.0 是 AI IDE 嗎?

不只是 AI IDE。Antigravity 2.0 有桌面 app 與 CLI,但更重要的是 Google 正把它做成 agent runtime:包含 SDK、API、Managed Agents、雲端 sandbox、AGENTS.mdSKILL.md 與企業平台整合。

已經用 Cursor,還需要 Claude Code 或 Codex 嗎?

看你的任務。Cursor 很適合 IDE 內補全、快速 inline edit、UI 微調與 prototype。當你開始需要跨檔重構、長任務、跑測試、git 操作、多 agent review 或企業治理,Claude Code 和 Codex 的價值會變高。

企業導入應該先買哪個?

不要先買,先做 PoC。用真實但低風險 repo 測 Claude Code、Codex 和 Antigravity,評估完成時間、人類 review 成本、測試通過率、權限違規、audit log、cloud/local 資料邊界,再決定採購與治理策略。

Sources:

№ · further reading

延伸閱讀