如果你現在搜尋「Claude Code vs Codex vs Antigravity」,最容易看到的答案通常太快了:不是簡單表格,就是一句「看你習慣 terminal 還是 IDE」。
但 2026 年 6 月的情況已經不只是工具介面之爭。
Claude Code、OpenAI Codex、Google Antigravity 2.0 都在往同一個方向走:讓 AI agent 讀 repo、改檔、跑測試、看 diff、開 PR,甚至進入企業治理與雲端 sandbox。
真正要問的不是「誰比較會寫 code」,而是:
你要的是一個住在 terminal 的工程夥伴、一個管理多個 agent 的指揮中心,還是一套可部署、可 API 化、可託管的 agent runtime?
這篇會用這個角度重新比較三者。
60 秒結論:三者差在哪?
| 工具 | 一句話定位 | 最適合誰 |
|---|---|---|
| Claude Code | terminal-first 的 AI 工程師 | 已經熟 git、CLI、測試、repo 結構,想把大型工程任務交給 agent 的開發者 |
| OpenAI Codex | 多 agent 指揮中心 | 要同時管理多個任務、看 diff、跑 cloud/local/remote workflow 的個人與團隊 |
| Google Antigravity 2.0 | Google 的 agent runtime 與 managed sandbox 平台 | 想把 agent 放進 Google Cloud、Gemini API、SDK 或企業平台的團隊 |
如果用不同判準選:
| 你的判準或情境 | 優先選 |
|---|---|
| 高難度 repo、任務規劃、想少操心 | Claude Code |
| 內容網站、文章配圖、封面圖、SEO 圖解 | Codex |
| 多 repo、多 issue、平行任務、團隊協作 | Codex |
| Google Cloud/Gemini 生態、managed agent、產品化 sandbox | Antigravity |
| 只能包一種 US$200/月方案 | Codex |
| 不考慮預算,想把三者搭起來 | Claude Code 規劃任務,Codex 生圖/debug/review,Antigravity 觀察平台化 |
| 你還是新手,只想快速改 UI | 其實可以先看 Cursor,不一定從這三個開始 |
| 你是工程主管,要導入企業 AI coding agent | 先用 Codex/Claude Code 做 PoC,再評估 Antigravity 的平台化價值 |
Mason 一個月高階方案實測:三者的性格差與 CP 值
先講我的測試背景:這三套我都不是只看 demo,也不是只試免費額度。我自己都付費用過約 US$200/月等級的方案,拿來處理真實內容站、真實 repo、圖片工作流、SEO 優化、build、git、部署與跨檔修改。
所以這裡不是 benchmark,而是很主觀、但對日常工作更有用的體感:
| 工具與模型體感 | 我的比喻 | 真實工作中的感覺 |
|---|---|---|
| Claude Code Opus 4.7 | 名校畢業的高材生 | 指定一個任務後,它常會自己把路上遇到的困難清掉。它會舉一反三,看到缺檔、壞路徑、build warning、格式問題,通常會主動追到一個能交付的狀態。 |
| Codex 搭配 GPT-5.5 以上 | 木訥但穩的老員工 | 叫它做一件事很穩,diff、測試、流程感都好,但它通常不會自己多做。你要把任務拆清楚,否則它常常做到剛好及格就停。偶爾偷懶時,也比較容易被你從 diff 或測試結果抓到。 |
| Gemini 3.1 Pro/Antigravity | 還在校的實習生 | 適合打雜、整理資料、試平台概念、做一些不太危險的探索;但如果要它獨立扛大型 repo 任務,我目前不會放心。它的長期價值比較像 Google agent 平台,而不是今天就取代主力 coding agent。 |
Claude Code 最可怕的地方不是它會寫 code,而是它很像真的理解你要交付什麼。你給它一個任務,它常會順手把附近會阻礙交付的東西也清掉,這對內容網站維護、跨檔重構、圖片路徑與插圖位置整理、內鏈、build 修正非常省心。
但反過來,它也有最危險的一面:如果它真的誤導你,你不一定會立刻發現。 因為它講得很完整、很像真的知道整個 repo,甚至會把錯誤包裝成很合理的工程判斷。用 Claude Code 時,我會更堅持看 diff、跑 build、查引用、檢查它有沒有改到不該改的檔案。
Codex 的體感比較像老員工:不花俏、不太主動,但穩。它很適合被你明確指揮:先做 A、再驗 B、最後推 main。Claude Code 能做的事,Codex 基本也都能做;差別是 Claude 比較會自己補路,Codex 則更需要你把任務邊界、驗收標準、檔案範圍、測試指令交代清楚。
換句話說,Codex 不是能力不夠,而是比較吃使用者的管理能力。你願意多花一點心力拆任務、看 diff、追驗收,它就能用更高 CP 值做掉很多工作,也很適合拿來做 review、平行任務、或在 app 裡管理多個 agent thread。
Gemini 3.1 Pro/Antigravity 目前我會放在比較保守的位置。它不是完全沒用,而是我不會把核心 repo 任務交給它單獨跑。它比較適合做資料整理、初步研究、平台測試,或觀察 Google 之後把 managed agent、sandbox、SDK、API 做到什麼程度。
所以如果用人來比喻:
- Claude Code 是你可以交辦大任務的高材生,但你要防它太有自信。
- Codex 是你可以穩定派工的老員工,能做的事很多,但你要把需求寫清楚、驗收做確實。
- Antigravity 現階段比較像實習生加上實驗平台,適合觀察與低風險任務。
這也是為什麼我的結論不是「誰模型分數最高」,而是「你要不要讓它獨立承擔真實交付責任」。
另一個面向是 CP 值。這同樣只是我的主觀體感,不是正式 benchmark,也會受到 repo 類型、任務切法、prompt、審稿標準與你自己的熟練度影響。
如果同樣抓 US$200/月左右的高階方案,我會這樣估:
| 同價位產能體感 | 一週能做多少事 | 我的解讀 |
|---|---|---|
| Claude Code Opus 4.7 | 10 件 | 單件任務品質高,會主動清掉周邊阻礙,適合重要任務與深度 repo 工作;但單位成本體感較高,也更需要人類 review。 |
| Codex GPT-5.5 | 15-20 件 | 產能體感最高,尤其適合多任務、平行 thread、明確交辦、review 與推送流程。它不一定最會舉一反三,但同價位能完成的工作量很漂亮。 |
| Antigravity 掛 Opus 4.6 | 約 5 件 | 以目前體感來說,單純拿來做日常 coding agent 不划算;比較像為了觀察 Google agent 平台、managed sandbox 或特定生態整合而付費。 |
| Antigravity/Gemini 3.1 Pro | 不列入重要工作估算 | 雖然可以用 Gemini,但我不敢拿它處理比較重要的 repo 任務。若你的工作品質要求能接受 Gemini,大概也未必需要包到 US$200/月等級方案。 |
所以如果只問「同樣 200 美金,誰讓我做最多事」,我的答案會偏 Codex。
如果問「哪個最像能獨立扛高難度任務」,我仍然會偏 Claude Code Opus 4.7。
如果問「Antigravity 值不值得」,答案要看你是不是在買 Google agent 平台的未來,而不是只買今天的 coding 產能。
還有一個很容易被忽略的面向:生態與跨裝置工作流。
Claude 這裡做得比我預期更完整。Claude in Chrome 目前我沒遇到什麼大問題;手機 app 控制電腦 coding 的流程,在我用過的幾套裡是最順的。更重要的是,我可以用 B 電腦開桌面版 Claude,去控制 A 電腦上的 coding 工作。這件事對我非常方便,因為我不一定永遠坐在同一台機器前面,但我希望 agent 可以接著跑同一個 repo。
Codex 明顯也在這件事上下了很多工夫,也能用手機控制電腦工作;只是我的體感是設定比較複雜,手機 app 的順暢度也還不如 Claude。至於能不能像 Claude 那樣用 B 電腦很無腦地控制 A 電腦,我不排除設定後可以做到,但 Claude 的優勢是它不需要我研究太久,打開就能用。
長任務的上下文管理也是一個差異。Claude 的自動上下文壓縮目前比較完善,我還沒遇到明顯的大問題;長任務跑久了,它通常還能抓住原本的任務脈絡。Codex 也會自動壓縮上下文,但我遇過它開始忘東忘西的情況,所以有時要主動叫它記下目前決策、檔案狀態、下一步和不要動哪些東西。
桌面版順暢度也偏 Claude。Claude 桌面版長時間用起來比較穩,Codex 如果上下文太多、thread 太長,體感上比較容易卡頓。這不是不能用,但會讓你更常想整理 thread、重開任務,或把重要決策寫進 repo 文件,減少它靠對話記憶撐太久。
中文表達則是 Codex 稍微好一點。Claude 的中文不是不能用,但偶爾會跑出很像英文直翻的美式文法,AI 感比較重;如果是文章語氣、標題、中文段落順讀度,Codex 的輸出相對自然一些。不過兩者真的要上站,我還是會人工順一次,尤其是帶個人觀點的段落。
不過 Codex 仍然瑕不掩瑜。它的多 agent、debug、review、推送流程已經夠強,加上 Image 2.0 對內容站、文章配圖、封面圖與視覺輔助非常加分。這讓 Codex 不只是 coding agent,而是更接近「內容站與軟體工作流的總工具箱」。
所以如果你問我只能包一種 US$200/月方案,我現在會選 Codex。
如果不考慮預算,我會讓 Claude 負責規劃任務、拆解風險、處理高難度 repo 判斷,再讓 Codex 負責生圖、debug、review、多任務與推送。
至於 Gemini 呢?coding 重要任務我仍然不會交給它,但 Google 方案還是有一個很實在的日常價值:可以去除 YouTube 廣告。
讀者真正想知道什麼?
搜尋「Claude Code vs Codex vs Antigravity」的人,大多不是在做學術比較,而是在做一個很現實的決策:
- 我現在該把時間投在哪個工具?
- 哪個最適合真實 repo,不只是 demo?
- 哪個最適合公司導入?
- 哪個比較不容易把檔案改壞?
- Claude Code、Codex、Antigravity 能不能搭配用?
- 如果我已經用 Cursor 或 Copilot,還需要這三個嗎?
很多比較文的問題是:把它們當成同一類 AI IDE 排名,但這會誤導。
Claude Code 本質上是 agentic CLI。Codex 正在變成跨 app、CLI、IDE、cloud、mobile、Remote SSH 的 agent workflow。Antigravity 2.0 則是 Google 把 agent harness、sandbox、API、SDK 與 Managed Agents 打包成平台。
所以這篇不會只問「誰最強」。我會問:哪一種工作流最適合你。
Claude Code 是什麼?
Claude Code 是 Anthropic 的 agentic coding system。官方定位很直接:它可以讀 codebase、跨檔修改、跑測試,最後交付 committed code。
它最重要的產品形狀是 terminal-first。
這代表 Claude Code 的核心不是 IDE 裡的補全,而是讓 agent 在你的工程環境中工作:
- 讀 repo、搜尋檔案、理解架構
- 編輯多個檔案
- 跑 shell command、git、測試、build
- 依錯誤輸出繼續修正
- 透過
CLAUDE.md記住專案規則 - 用 MCP 連外部工具
- 用 Skills 封裝重複工作流
- 用 Hooks 在工具呼叫前後做安全與品質守門
- 用 Subagents 分派平行任務
Claude Code 的魅力在於:它很像坐在你 terminal 裡的工程師。
你不需要把上下文搬去某個網頁,也不需要一直貼 code。它直接在 repo 旁邊理解、改動、驗證。
Claude Code 的強項
| 強項 | 為什麼重要 |
|---|---|
| Terminal 原生 | 和 git、test、build、package manager、CLI tool 貼得很近 |
| Repo reasoning | 適合跨檔案、跨模組、需要理解架構的任務 |
| Plan / verify 工作流 | 先規劃、再改、再跑測試,適合中大型任務 |
| Hooks | 可攔截危險指令、跑 lint、記錄 audit trail |
| Subagents | 大任務可拆成多個獨立工作流 |
| MCP 生態 | 容易接資料庫、文件、內部工具與瀏覽器自動化 |
Claude Code 的弱點
| 弱點 | 實際影響 |
|---|---|
| GUI 與視覺 diff 不是主戰場 | 前端 UI 微調、像素級調整會比較不直覺 |
| 多任務管理要自己整理 | 可以開多 session,但沒有 Codex app 那種 command center 感 |
| 太貼近本機環境 | 權限、路徑、secrets、production config 要自己守好 |
| 新手門檻較高 | 不熟 terminal、git、測試的人會比較容易迷路 |
Mason 的用法
如果我要讓 AI 幫我維護這種 Astro 內容站、改 Markdown、跑 build、檢查 git diff、補圖片路徑、處理大量內鏈,Claude Code 會是最自然的主力工具。
原因不是它永遠寫得最好,而是它和 repo 的距離最短。
OpenAI Codex 是什麼?
Codex 現在已經不是早期「自然語言轉程式碼」的舊印象。
2026 年的 Codex 更像一個 AI coding agent 平台,橫跨:
| Surface | 適合情境 |
|---|---|
| Codex app | 管理多個 agent thread、平行任務、看 diff、comment 變更 |
| Codex CLI | terminal 裡和 Codex 協作,類似 Claude Code 的入口 |
| IDE extension | 在編輯器內派任務、看結果 |
| Codex Cloud | 把較長任務交給雲端 agent |
| ChatGPT mobile | 在手機上看進度、批准、改方向 |
| Remote SSH | 連到受管遠端開發環境,適合企業 devbox |
OpenAI 自己把 Codex app 稱為 agent command center。這個詞很關鍵。
Codex 的野心不是只做一個 CLI,而是讓你同時管理多個 agent,讓它們在不同 worktree、不同 thread、不同任務上平行工作,然後你像 tech lead 一樣看 diff、留言、批准、合併。
Codex 的強項
| 強項 | 為什麼重要 |
|---|---|
| 多 agent threads | 適合同時跑 bug fix、測試、文件、研究、重構 |
| Worktree 支援 | 多個 agent 可在同 repo 平行探索,不互相污染 |
| App/CLI/IDE/cloud/mobile | 工作流入口多,不被單一介面綁死 |
| Remote SSH | 可接企業受管環境,不一定要每個人本機亂跑 |
| Sandbox 與 approvals | 比單純聊天工具更接近可治理的工程流程 |
| OpenAI 生態 | ChatGPT、API、企業帳戶、工作區政策容易整合 |
Codex 的弱點
| 弱點 | 實際影響 |
|---|---|
| 產品面向多,學習面也分散 | app、CLI、IDE、cloud 的最佳用法不同 |
| 個人單一 repo 小任務未必比 Claude Code 快 | 如果你只想 terminal 裡深度處理一件事,Claude Code 更直接 |
| 團隊治理要設計流程 | 多 agent 很強,但沒有 PR 規則、測試與 review,會放大混亂 |
| Cloud task 帶來資料與權限問題 | 企業要明確定義哪些 repo、secrets、環境可被 agent 接觸 |
Mason 的用法
Codex 最適合做「第二層」。
日常我可能用 Claude Code 主跑 repo 內任務,但在幾種情況會想加 Codex:
- 同時要比較兩種實作方案
- 需要另一個 agent 做 review
- 要把長任務丟到 cloud 或 remote environment
- 需要從手機看進度、批准或改方向
- 團隊要把 AI coding agent 管成正式流程,而不是每個人各玩各的
換句話說,Codex 的強項是監督與協調,不只是親自寫 code。
Google Antigravity 2.0 是什麼?
Antigravity 2.0 很容易被誤解成「Google 版 Cursor」或「Gemini CLI 改名」。
這樣看太小。
Google 在 2026 年 5 月把 Antigravity 2.0 推到更大的形狀:桌面 app、CLI、SDK、API、Google AI Studio templates、Gemini API Managed Agents、企業平台。
Google 的 Managed Agents 讓開發者用 API 啟動一個能推理、用工具、執行程式碼的 agent,並且跑在隔離、短暫存在的 Linux sandbox。開發者也可以用 AGENTS.md、SKILL.md 這類可版本化檔案定義 agent 的指令、技能與資料。
這代表 Antigravity 的核心不是「編輯器比較好用」,而是 Google 想掌握 agent runtime:
- agent 在哪裡執行
- sandbox 怎麼隔離
- 檔案與工具怎麼管理
- session 狀態怎麼保留
- API/SDK 怎麼接進產品
- 企業怎麼部署、控管與稽核
Antigravity 的強項
| 強項 | 為什麼重要 |
|---|---|
| Cloud sandbox | 可把 agent execution 和本機環境隔開 |
| Managed Agents | 不必自己架 sandbox、orchestrator、state management |
| API/SDK | 適合把 agent 能力產品化,而不是只給工程師用 |
| Google Cloud/Gemini 生態 | 對已在 Google 技術棧的團隊更自然 |
AGENTS.md/SKILL.md | agent 指令與技能可版本化、可團隊共享 |
| 平台化方向明確 | 比單一 IDE 更像未來 agent infrastructure |
Antigravity 的弱點
| 弱點 | 實際影響 |
|---|---|
| 產品變動期 | 2.0 仍在快速成形,工作流與遷移成本要觀察 |
| 個人日常 coding 未必最省事 | 如果只是修 bug,Claude Code 或 Codex CLI 可能更直接 |
| 容易被 Google 生態綁住 | agent skills、runtime、API、帳務與平台會形成遷移成本 |
| 成熟度要用真 repo 測 | 看起來很平台,但要驗證 MCP、plugins、sandbox、CI、權限是否穩 |
Mason 的用法
Antigravity 我不會拿來取代 Claude Code。
我會把它看成兩種情境的候選:
- 想試 Google 最新 coding agent 能力與 Gemini 生態。
- 想把 agent 做成產品或內部平台,而不是只在本機 terminal 用。
這個差別很大。個人開發者要的是快,平台團隊要的是可部署、可控、可擴展。
核心比較表:不要再只看「誰比較會寫 code」
| 面向 | Claude Code | Codex | Antigravity 2.0 |
|---|---|---|---|
| 核心定位 | Terminal-first coding agent | 多 agent command center | Agent runtime/managed sandbox platform |
| 最自然入口 | Terminal、IDE、desktop、web | App、CLI、IDE、cloud、mobile、Remote SSH | Desktop app、CLI、SDK、API、AI Studio |
| 最強工作 | 深度 repo 任務、跨檔重構、測試迭代 | 多任務、多 agent、diff review、團隊流程 | 雲端 sandbox、managed agent、平台整合 |
| 個人開發者上手 | 中等,需要熟 CLI | 中等,app 對多任務較友善 | 中等偏高,概念較平台化 |
| 前端視覺微調 | 普通 | 普通到中等,視 surface 而定 | 視 app/IDE 工作流成熟度 |
| 多 agent 管理 | 可做,但比較工程化 | 產品主軸之一 | 平台主軸之一 |
| 本機控制感 | 強 | 中到強,可 local/remote/cloud | 中,重點在 managed runtime |
| 企業治理 | 需搭配政策、hooks、MCP、環境管理 | 強調 sandbox、approval、workspace、Remote SSH | 強調 managed agents、企業平台與 Google Cloud |
| 生態依賴 | Anthropic/Claude/MCP | OpenAI/ChatGPT/Codex surfaces | Google/Gemini/Cloud/Antigravity harness |
| 最大風險 | 本機權限與過度放權 | 多 surface 與 cloud 權限治理 | 平台鎖定與產品變動 |
一句話:
Claude Code 是工程師工具,Codex 是協作控制面,Antigravity 是平台野心。
任務勝負矩陣:什麼任務誰比較適合?
| 任務 | Claude Code | Codex | Antigravity |
|---|---|---|---|
| 讀陌生 repo,整理架構 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 修 failing test | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 跨 10+ 檔重構 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 同時跑 3 個不同 issue | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 讓另一個 agent review diff | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 把任務丟到 cloud sandbox | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 企業受管 remote devbox | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Google Cloud/Gemini 產品整合 | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 個人 terminal workflow | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 建立可版本化 agent skill | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 前端小 UI 微調 | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 非工程師做內部工具 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
這張表不是絕對分數,而是工作流匹配度。
例如跨檔重構不是 Codex 做不到,而是 Claude Code 的 terminal-first 心智模型更直接。反過來,多任務管理不是 Claude Code 做不到,而是 Codex app 原生就把它做成主介面。
怎麼選?用這棵決策樹
先問第一題:你要 agent 在哪裡工作?
1. 你主要在本機 repo 裡工作嗎?
如果答案是「對,我每天就是 git、terminal、test、build」:
優先選 Claude Code。
它最像你熟悉的工程流程延伸。尤其你已經知道怎麼看 diff、怎麼跑 test、怎麼限制檔案範圍,Claude Code 會很快變成工作肌肉記憶。
2. 你常常同時管理多個 issue 嗎?
如果你每天要處理:
- 一個 bug fix
- 一個文件更新
- 一個測試補強
- 一個 PR review
- 一個 research task
那 Codex 會更有價值。
因為這時候問題不是 agent 能不能改 code,而是你能不能監督多個 agent 不互相踩線。
3. 你要把 agent 能力接進產品或企業平台嗎?
如果你不是只想自己寫 code,而是想:
- 在產品裡提供 agent execution
- 讓 agent 跑在雲端 sandbox
- 用 API 啟動、恢復、管理 agent session
- 把 agent skills 版本化
- 接 Google Cloud 或 Gemini Enterprise Agent Platform
那 Antigravity 2.0 值得認真看。
它不是最輕的個人工具,但它可能是最像「平台」的那一個。
4. 你完全不熟 terminal 嗎?
那這三個都不一定是第一步。
如果你只是剛開始用 AI 寫 code,想快速看到畫面、改 UI、做 prototype,Cursor 或 Copilot 可能更適合當入門工具。
等你開始需要跨檔重構、跑測試、處理 PR、設計 agent workflow,再回來看 Claude Code、Codex、Antigravity。
個人開發者:最實際的選法
個人開發者的核心不是「工具最完整」,而是「每天有沒有真的用得上」。
如果你是全職工程師
我的建議是:
- Codex 當付費主力。
- Claude Code 當高難度規劃與省心任務工具。
- Antigravity 當新平台觀察與特定 Gemini/Google Cloud 任務。
原因很簡單:全職工程師每天最多的工作不是從零生成 app,而是讀現有 code、修 bug、跑測試、review diff、處理 edge cases。
Claude Code 很適合這個節奏,因為它比較會自己補路、自己追到可交付狀態。
但 Codex 也能做這些事,只是使用者要多付出一點管理心力:把任務拆清楚、限制檔案範圍、要求它跑測試、檢查 diff、確認它沒有只做到剛好及格。若你願意這樣管理,Codex 的多 agent、cloud task、remote devbox、手機批准、diff comment,加上 Image 2.0,整體 CP 值會更高。
Antigravity 可以試,但除非你的工作重心在 Google 生態或 agent 產品化,不然不需要急著全面搬家。
如果你是獨立開發者/接案者
如果你接的是高風險 repo、金流、權限、migration 或大型重構,Claude Code 仍然最省心。
接案最怕的是 AI 幫你快寫一堆,但你不知道它改了什麼。Claude Code 搭配 git diff、測試、build、commit workflow,控制感比較強。
但如果只能包一種 US$200/月方案,我會偏 Codex。原因不是 Codex 比 Claude Code 更會自動補路,而是它能做 Claude Code 大多數 coding 任務,只要你願意更勤勞地拆任務與驗收;再加上它在多任務、review、debug、推送與生圖上的加總價值,接案者其實很容易把成本賺回來。
Codex 特別適合用在:
- 同時做多個客戶 repo
- 讓 agent 幫你準備 PR 摘要
- 做上線前 review
- 讓長任務在你離開電腦時繼續跑
Antigravity 則適合你想做一個可商品化的 agent service,而不是純接案開發。
如果你是內容網站/AI 工具站站長
像我這種會同時處理文章、圖片、SEO、內鏈、build、git、部署的人,Codex 更適合當付費主力。
關鍵原因是生圖。Claude 很適合幫你規劃文章、拆 SEO 任務、檢查內文邏輯、處理 repo 裡的文字與 build;但 Codex 的 Image 2.0 對內容網站太重要了。文章封面、內文輔助圖、比較表視覺化、流程圖、工具截圖替代圖,這些都直接影響讀者理解與點擊體感。
Codex 在內容站會同時吃到三種價值:
- 生圖任務:幫文章補封面、圖解、比較圖與視覺輔助。
- 批量任務:同時讓多個 agent 處理不同文章優化。
- Review 任務:讓另一個 agent 檢查標題、內鏈、FAQ、sources、build 風險。
所以內容網站這種場景,我不會只問「哪個 coding agent 比較省心」。我會問:「哪個工具能同時幫我寫、改、查、debug、review、推送,還能把文章需要的圖做出來?」用這個判準看,Codex 很明顯更像主力。
Antigravity 的價值比較像研究題目:如果 Google 把 Managed Agents 做成熟,未來可能用來跑自動化內容流程、資料整理、監控與內部 agent pipeline。
團隊與企業:不要只問工程師喜歡哪個
企業導入 AI coding agent,最常犯的錯是拿個人開發者的喜好當採購標準。
個人問的是:
- 好不好用?
- 改得快不快?
- 跑測試順不順?
企業還要問:
- 哪些 repo 可以被讀?
- agent 能不能碰 secrets?
- 能不能限制 network access?
- 能不能接受管 devbox?
- approval gate 怎麼設?
- audit log 到哪裡?
- AI 產生的 PR 怎麼標記?
- 出事時誰負責?
- 成本怎麼切到 team/project?
- 能不能接現有 CI/CD、Jira、GitHub、GitLab、Slack?
企業選型表
| 企業需求 | 優先看 |
|---|---|
| 工程師快速採用 | Claude Code、Codex CLI |
| 多 agent 工作流管理 | Codex app |
| 遠端受管開發環境 | Codex Remote SSH |
| 本機與 repo 規則深度整合 | Claude Code + Hooks + CLAUDE.md |
| Google Cloud/Gemini 平台整合 | Antigravity Managed Agents |
| agent execution 平台化 | Antigravity、Codex Cloud |
| 多工具並存治理 | 另建 Agent 365/UiPath/內部 policy 層 |
我會怎麼做 PoC?
不要拿 demo repo。
拿一個真實但低風險的內部 repo,設計 6 個任務:
- 讀 repo,產出架構說明。
- 修一個已知 failing test。
- 補一組 unit test。
- 改一個小 bug,要求產生 PR summary。
- 做一次 security/permission review。
- 故意放一個會誘惑 agent 越權的任務,看 approval 與 policy 能不能擋。
然後比較:
- 完成時間
- 人類 review 時間
- 測試通過率
- 不必要改動數
- 需要人工救火次數
- 權限違規次數
- 產出 PR 是否容易 review
企業真正該買的不是「看起來最聰明的 agent」,而是「最容易被流程承接的 agent」。
能不能三個都用?
可以,而且這反而是成熟用法。
不要把它想成宗教站隊。AI coding agent 最實際的玩法是分工。
Mason 建議的搭配 SOP
| 階段 | 工具 | 做什麼 |
|---|---|---|
| 任務拆解 | Claude Code 或 Codex | 先讀 repo,列出計畫與風險 |
| 主實作 | Claude Code | 在本機 branch 改檔、跑測試、整理 diff |
| 平行探索 | Codex | 讓另一個 agent 嘗試 alternative implementation |
| Review | Codex 或 Claude Code 第二 session | 檢查安全、測試、邏輯、文件、PR 摘要 |
| 平台化實驗 | Antigravity | 測試 cloud sandbox、managed agent、API workflow |
| 團隊導入 | Codex/Antigravity/內部治理 | 把 agent 納入 approval、audit、CI/CD |
一個真實工作流範例
假設你要把一個 SaaS 專案的 billing module 重構:
- 先用 Claude Code 讀 repo,要求只分析,不改檔。
- 要 Claude Code 產出 migration plan、測試策略、rollback plan。
- 開新 branch,讓 Claude Code 改第一版。
- 跑 test、lint、type check。
- 丟給 Codex 做 adversarial review:檢查金流、權限、edge cases。
- 如果有兩種方案不確定,讓 Codex 開另一個 worktree 平行嘗試。
- 若要做成可重複 agent workflow,再研究 Antigravity 的
AGENTS.md/SKILL.md與 Managed Agents。
這樣用,比問「哪個工具最強」更接近真實工程。
價格與成本:不要只看月費
這三個工具的定價、配額、plan、promotion 都會變,所以我不建議把文章寫死成「誰每月幾美元最划算」。
更穩的算法是看總成本:
| 成本項目 | 你要問的問題 |
|---|---|
| 個人訂閱 | 每個工程師要幾個 seat?是否需要 Pro/Max/Team/Enterprise? |
| Usage/credits | 重度使用是否會碰 limit?cloud task 是否另計? |
| API/SDK | 如果用 Antigravity 或 Codex 做產品化 agent,API 成本怎麼算? |
| Review 成本 | agent 產出的 PR 是否讓人更快 review,還是增加負擔? |
| 錯誤成本 | agent 改錯權限、金流、migration 的風險多高? |
| 管理成本 | IT、資安、DevOps 要花多少時間設 policy、audit、sandbox? |
| 遷移成本 | 技能、規則、workflow、hooks 是否綁死某一平台? |
我自己的判斷是:
個人開發者不要為了省 20 美元選錯主力工具。真正的成本是你每天的心智負擔。
企業則相反,不要因為工具單價便宜就全公司開。真正的成本是治理、review、資料外洩與錯誤部署。
安全與 EEAT:AI coding agent 最容易出事的地方
Claude Code、Codex、Antigravity 都在強調安全、sandbox、approval 或 managed environment。但你不能只靠官方預設。
最低限度,任何團隊導入前都要有這 10 條規則:
- agent 不得直接操作 production。
- secrets、金鑰、憑證、
.env要明確排除或遮蔽。 - 修改權限、金流、認證、資料庫 migration 必須人工批准。
- 每個 agent 任務都要有 branch 或隔離環境。
- AI 產生的 PR 要標記,不能混成人類 commit。
- 所有 agent 改動都必須跑 lint、type check、test。
- 大型重構必須先產出 plan,不能直接改。
- agent logs、tool calls、approval records 要可追蹤。
- 禁止把客戶資料貼進不合規的 cloud task。
- 出事時以人類 reviewer 和 repo owner 負責,不把責任推給 AI。
這也是為什麼我不太喜歡「AI coding agent 誰最強」這種問法。
越強的 agent,越需要邊界。
Mason 的最終建議
2026 年的 AI coding agent 不會只剩一個贏家。
Claude Code、Codex、Antigravity 代表三種路線:
- Claude Code:工程師信任與 terminal 工作流。
- Codex:多 agent 協作與跨 surface 控制面。
- Antigravity:managed sandbox、API、SDK 與平台化 agent runtime。
如果你只問「哪個最適合扛高難度 repo 任務」,我會先選 Claude Code。它和真實 repo 的距離最近,也最像能幫你規劃、拆任務、清掉路上障礙的工程夥伴。
但如果問題變成「只能包一種 US$200/月方案」,我會選 Codex。不是因為它每一件事都比 Claude Code 強,而是同價位下的工作量、Image 2.0、debug、review、多任務與跨裝置工作流加總起來,CP 值最高。
我的理解是:Claude Code 能做的事,Codex 大多也能做,只是 Codex 需要你更像主管一樣拆任務、設邊界、看 diff、盯驗收。Claude 比較像把你少操的心變成產品能力;Codex 則是把更大的工具箱和更高產能交給你,但管理責任也更多。
如果你是 tech lead 或小團隊,我也會優先把 Codex 放進評估。不是因為它一定寫得比 Claude Code 好,而是多任務、多 agent、worktree、review、Remote SSH 這些東西更像團隊流程。
如果你是平台團隊、AI 工具創業者、Google Cloud 用戶,我會認真看 Antigravity。它的價值不是今天幫你多補幾行 code,而是 Google 正在把 agent execution 變成雲端平台能力。
如果不考慮預算,我自己的搭配會是:Claude Code 負責規劃任務與高難度判斷,Codex 負責生圖、debug、review、多任務與推送;Antigravity/Gemini 則放在 Google 生態與平台觀察的位置。
最重要的是:不要把規則、測試、文件、任務拆解全部鎖在某個工具裡。
把關鍵流程留在 repo:
READMEAGENTS.mdCLAUDE.md- 測試指令
- build 指令
- PR checklist
- coding conventions
- security policy
這樣不管你今天用 Claude Code、明天用 Codex、後天測 Antigravity,agent 都能讀懂你的工作方式。
工具會換,但 repo 裡的規則會留下來。
FAQ
Claude Code、Codex、Antigravity 哪個最強?
沒有單一最強。Claude Code 最適合 terminal-first 與深度 repo 任務;Codex 最適合多 agent、多任務、diff review 與團隊工作流;Antigravity 2.0 最適合 Google Cloud/Gemini 生態、雲端 sandbox 與 managed agent 產品化。
如果只能選一個,Mason 推哪個?
如果只看高難度 repo 任務,我會選 Claude Code;但如果只能包一種 US$200/月方案,我會選 Codex,因為它的同價位產能、Image 2.0、debug、review、多任務與跨裝置工作流加總起來 CP 值最高。不考慮預算時,我會讓 Claude Code 做規劃與高難度判斷,Codex 做生圖、debug、review 與推送。
Codex 可以取代 Claude Code 嗎?
多數任務可以,但心智模型不同。Claude Code 比較省心,常會自己把路上阻礙清掉;Codex 也能做這些事,但你要更清楚地拆任務、限制範圍、看 diff、跑驗收。若你只在 terminal 裡處理單一高難度 repo,Claude Code 仍然很自然;若你要同時管理多個任務,或需要文章配圖、封面圖、debug、review、推送整合,Codex 會更有優勢。
Antigravity 2.0 是 AI IDE 嗎?
不只是 AI IDE。Antigravity 2.0 有桌面 app 與 CLI,但更重要的是 Google 正把它做成 agent runtime:包含 SDK、API、Managed Agents、雲端 sandbox、AGENTS.md、SKILL.md 與企業平台整合。
已經用 Cursor,還需要 Claude Code 或 Codex 嗎?
看你的任務。Cursor 很適合 IDE 內補全、快速 inline edit、UI 微調與 prototype。當你開始需要跨檔重構、長任務、跑測試、git 操作、多 agent review 或企業治理,Claude Code 和 Codex 的價值會變高。
企業導入應該先買哪個?
不要先買,先做 PoC。用真實但低風險 repo 測 Claude Code、Codex 和 Antigravity,評估完成時間、人類 review 成本、測試通過率、權限違規、audit log、cloud/local 資料邊界,再決定採購與治理策略。
Sources:
- Anthropic:Claude Code by Anthropic
- Claude Code Docs:How Claude Code works
- OpenAI:Introducing the Codex app
- OpenAI:Work with Codex from anywhere
- OpenAI:Codex for every role, tool, and workflow
- Google:Introducing Managed Agents in the Gemini API
- Google Antigravity:Introducing Google Antigravity 2.0
- Google Antigravity Docs:Overview