Codex 是什麼、怎麼用？OpenAI AI Coding Agent 完整指南

Codex 是什麼？它能讀 repo、改程式、跑測試與準備 code review。一次看懂 Codex App、CLI、IDE、Web 的差別、入門步驟、費用與安全設定。

發佈於： 2026-05-27 | 更新於： 2026-07-14

內容查核： 2026-07-14 價格查核： 2026-06-19 來源查核： 2026-07-14

⚡ 重點摘要（TL;DR）

Codex 是 OpenAI 的 AI 程式代理（AI coding agent）：它能讀程式碼庫、改檔、跑命令、整理差異、準備審查，適合可描述、可測試、可回退的工程任務。
Codex App 26.616 在 2026-06-18 加入 Record & Replay，可在 macOS 示範一次工作流程，讓 Codex 轉成可重複使用的技能（skill）。
Record & Replay 初期不含歐洲經濟區、英國與瑞士，且需要 Computer Use 可用並已啟用；錄製時也要避開機密、憑證與正式資料。
先把 Codex 分成 App、CLI、IDE、Codex Web／cloud、Record & Replay、週期自動化與 API key 幾個入口；新手不要一開始就交給它改核心權限或資料庫。
Codex CLI 可在本機終端機執行，CLI 專案採 Apache-2.0 授權；但模型能力、ChatGPT 工作區、雲端任務與 API 費用仍屬 OpenAI 服務邊界，不能當成本機開放權重模型。
和 Claude Code、Cursor、GitHub Copilot 比較時，Codex 的強項在多入口、多代理任務、工作樹、審查流程與企業控制項；日常 IDE 補完或單人快改不一定要從 Codex 開始。
團隊導入前先設沙箱、核准、網路政策、憑證、規則、管理設定、稽核紀錄與成本警示，再放大到多人和長任務。

Codex 是 OpenAI 的 AI 程式代理（AI coding agent）。它和只在聊天框回答程式問題的工具不同：Codex 可以進入程式碼庫（repo），讀檔、改檔、執行命令、跑測試、整理 git diff，再把結果交給你審查。

最簡單的判斷方式是：只想問「這段 code 是什麼意思」，用 ChatGPT 就夠；想讓 AI 實際修 bug、補測試、更新文件或準備 code review，才需要 Codex。新手可先從 CLI 或 IDE 開始，管理多個長任務再用 Codex App，需要雲端背景執行才看 Codex Web。

第一次不要把整個專案交給它重構。先要求 Codex 只讀 repo、列出計畫，再讓它做一個可回退的小改動，最後親自看 diff 和測試結果。這篇會依序說明 Codex 能做什麼、四種入口怎麼選、第一個任務怎麼下，以及費用與權限要注意什麼。

Codex 安全派工流程示意：issue 訊號、程式碼庫地圖、差異檢查、測試脈衝與人工審核閘門串成一個可回退的開發循環 — 把 Codex 放在可審核的工程工作流裡，別直接把整個 repo 交給 AI。第一輪先從讀 repo、分析錯誤、最小修正和測試回報開始。

Codex 是什麼？先看它能不能完成你的任務

OpenAI 官方產品頁把 Codex 定位為能協助規劃、開發、重構、審查和發布的 coding agent。它不是一個單獨模型名稱，也不只是一套 CLI；Codex 是一組可以從 App、終端機、IDE 或雲端使用的代理工作流。實際使用時，你會遇到幾個入口：

入口	適合任務	先確認什麼
Codex App	管理多個代理任務、工作樹、長任務、自動化、Record & Replay 與差異審查	你的作業系統、ChatGPT 帳號、方案額度、Computer Use、資料政策。
Codex CLI	在終端機（terminal）裡讓 Codex 讀 repo、改檔、跑命令	安裝方式、登入、工作目錄、允許它執行哪些命令。
編輯器擴充（IDE extension）	在 VS Code、Cursor、Windsurf 等編輯器裡協作	和既有編輯器、Git、測試流程是否順手。
Codex Web / cloud	在雲端代理環境處理較長或平行任務	程式碼如何進入雲端、網路權限、工作區設定、審查流程。
API key / SDK	把 Codex 或代理能力接進內部工具	API 計費、速率限制、憑證權限、日誌和資料保護。

Codex CLI 的 GitHub README 說得很直接：CLI 是在本機電腦執行的 OpenAI 程式代理；想要編輯器體驗就裝 IDE；想要桌面 App 就用 Codex App；想要雲端代理就到 chatgpt.com/codex。這幾個入口各自處理不同工作流，請不要把它們看成同一個按鈕換名字。

新手先別急著背產品名。更有效的問題是：我現在要 Codex 做的是「理解」、「修改」、「驗證」、「審查」、「錄製固定流程」，還是「長時間背景任務」？答案不同，入口也不同。

2026-06 更新：Record & Replay 適合哪種固定流程？

OpenAI Developers changelog 顯示，Codex App 26.616 新增 Record & Replay。這是一個 macOS 功能，初期不含歐洲經濟區、英國與瑞士，且需要 Computer Use 可用並已啟用；如果企業用 requirements.toml 管理 Codex，[features].computer_use 也會影響 Record & Replay 是否可用。

它的工作方式很直覺：你先在 Mac 上示範一次流程，Codex 觀察必要的動作與視窗內容；停止錄製後，Codex 會把這段流程整理成技能，寫清楚何時使用、需要哪些輸入、步驟怎麼跑、結果如何驗證。之後開新對話時，你可以提供這次不同的變數，例如要上傳的檔案、要建立的 issue、報表日期區間，讓 Codex 用同一個技能重跑。

服務對象不限工程師。內容、營運、產品或客服團隊也可能遇到「說明很麻煩，但示範一次很清楚」的重複工作。比較適合錄製的是步驟穩定、成功條件清楚、錯了也能回退的流程；不要拿來錄正式付款、客戶個資、內部憑證、不可重建資料或介面每天大改的任務。

建立格式固定的 GitHub issue，或下載指定日期的週報並整理成團隊格式，都適合先試 Record & Replay，因為欄位、輸入與完成條件清楚。發布素材到後台只能小範圍測，必須保留預覽與撤回。正式部署、付款、權限與憑證處理不適合直接錄製執行，應先拆成沙箱、人工審核與可回退步驟。

Record & Replay 負責把人的示範變成技能；Codex App 的 Automations 則負責按排程讓 Codex 回來做事。OpenAI 文件提醒，專案型自動化需要本機 Codex App 還在執行、選定專案仍在磁碟上；Git repository 可以選在本機專案或新工作樹（worktree）執行。若排程會改檔，工作樹比直接在你正在工作的目錄裡跑更安全。

實務上，把兩者分開看會比較穩：Record & Replay 用來教 Codex 一個固定流程；Automations 用來定期檢查或執行。兩者都會放大權限風險，所以第一次不要開完全存取（full access）。先用工作區寫入（workspace write）、命令允許清單（allowlist）、人工審查和清楚的停止條件，確認輸出可審核後再放大。

如果你想把這套流程發給整個團隊、打包多個技能、串更多應用整合或 MCP server，OpenAI 建議改做 plugin；單次錄製出的技能比較適合個人或小範圍流程。

Codex 適合做哪些工程任務

Codex 最適合可描述、可測試、可人工審查的工作。請把第一批任務控制在低風險、高回饋的範圍：

讀陌生 repo 時，先要求 Codex 只整理模組、資料流、測試方式與關鍵檔案，不要改檔。分析 bug 時，先列可能原因與驗證方法，再允許最小修正。補測試、維護 README、修型別或 lint，也都適合第一批試用，但要指定框架、可改範圍與回報格式。Code review 可以交給它找漏測與高風險 diff，最終批准仍由人負責。

暫時不要把第一輪 Codex 任務放在金流、認證、production 設定、大型資料庫 migration、secrets 處理、缺少測試的核心 legacy 模組，或方向還沒定的新功能。Codex 能動手，不代表每件事都該讓它先動手。

第一次使用：用三步驟降低改錯風險

1. 先請它讀 repo，不要改檔

請讀這個 repo，整理主要模組、資料流、測試方式、最值得先看的 5 個檔案。先不要改任何檔案，也不要執行會改動環境的命令。

這一步是在建立共同地圖。你要看它是否真的抓到專案結構，先別急著接受它的第一個修正。

2. 再請它提出驗證計畫

這個測試失敗。請列出 3 個可能原因、對應要檢查的檔案，以及每個原因要如何驗證。先不要改檔。

如果 Codex 連驗證計畫都講不清楚，就不要讓它改核心邏輯。這能避免它為了讓測試變綠而刪掉真正重要的行為。

3. 最後要求最小修正與回報格式

請提出最小可行修正，避免重構。改完後列出：1. 變更檔案；2. 重跑的測試；3. 沒有測到的風險；4. 需要人類確認的地方。

收到輸出後，不要只看它的摘要。請看 git diff、測試結果、被刪掉的邏輯、權限變更、資料流變更和它沒有碰到的邊界條件。你也可以搭配 AI Coding Agent Prompt 範本，把目標、限制和驗收寫得更穩。

Codex App、CLI、IDE、Codex Web 怎麼選

習慣 git、終端機與測試指令，就從 Codex CLI 開始；主要在 VS Code 或 Cursor 工作，選 IDE extension。同時追多個 issue、工作樹與長任務時，Codex App 比較好管理；想讓任務在雲端背景執行才用 Codex Web／cloud。Record & Replay 解決重複示範流程，Automations 解決定期執行，API／SDK 則留給要接內部產品的團隊。

如果你是個人開發者，我會先用 CLI 或 IDE 做低風險任務，再看 App 是否真的改善多任務管理。Record & Replay 可以放在第二輪試用：先錄一個可丟棄、可人工檢查的流程，不要從正式部署或付款開始。若你想把 issue、分支、測試、PR 串成固定流程，可以接著看 AI Coding Agent 工作流實戰。若你是工程主管，請先用一個小 repo 或非核心服務做試點，再談全公司導入。

和 ChatGPT、Claude Code、Cursor、Copilot 怎麼分

只問概念或解釋片段，用 ChatGPT；要讓代理進 repo、改檔、跑測試並管理多任務，用 Codex。偏好終端機與長脈絡 repo 協作，可以比較 Claude Code；想在 AI IDE 快速改 UI 與局部重構，看 Cursor；團隊核心需求若是程式補完、GitHub PR 與 Microsoft 生態，GitHub Copilot 可能已經足夠。無論選哪個，都要看 diff 與測試。

如果你的問題是「我要不要把 AI 代理人（AI agent）放進整個工程流程」，請看 Claude Code vs Codex vs Antigravity；如果你的問題是企業採購與治理，接著看企業 AI Coding Agent 評估指南。

費用、授權與資料邊界要拆開看

Codex 相關成本容易被混在一起。導入前請先分四層；如果你要把 review 時間、CI、返工和資安成本一起估，另外看 AI Coding Agent 成本與 ROI 會更完整：

費用要分四層看。先確認 ChatGPT 方案是否包含 Codex 與目前額度，再確認 App、CLI、IDE 或 Web 是否支援你的作業系統和工作區。若改用 API key，模型 token、速率限制與帳單獨立計算，不能拿 ChatGPT 月費代替。最後再檢查程式碼進入哪個環境、日誌如何保存，以及 CLI 工具授權和模型服務的差別。

這裡有兩個常見誤解。第一，Codex CLI 在你的電腦上跑，不代表整個智慧都在本機，也不代表你能自架 OpenAI 模型。CLI 是本機工作流入口；模型能力、ChatGPT 工作區、雲端任務、API key 和企業合規仍要回到 OpenAI 的服務條款與工作區設定。第二，OpenAI 目前沒有把 Codex 以「幾 B 參數、可下載權重」的形式發布；若官方頁面沒有揭露模型參數量，就不要用開源 CLI 授權推論模型大小或可自架性。

如果你正在比較「本機模型能不能取代雲端 coding agent」，那已經是另一個問題。你需要同時估 GPU、顯示記憶體（VRAM）、模型授權、程式碼隱私、速度和維運成本，可搭配 Ollama 教學與開源 LLM 與本機模型整理看。

企業導入前，先把控制項設好

OpenAI 在「Running Codex safely at OpenAI」裡整理了幾個治理重點。它們聽起來不像酷功能，卻決定 Codex 能不能進入真實工程組織：

先限制 Codex 可讀寫的資料夾，並用工作樹隔離任務。安裝套件、連外、刪檔、改設定和危險命令要保留人工批准；網路只開工作需要的網域。憑證不要寫進 prompt 或 repo，團隊還要能統一管理規則、查詢代理做過的動作，並對平行代理、雲端長任務與 API key 設預算警示。

只要 Codex 能改檔、跑命令、讀私有 repo，它就不再是一般 SaaS 工具。它碰到的是軟體供應鏈、內部原始碼、部署安全和工程權限。先把控制項設好，比追求「讓它一次做更多事」更重要。

一週試用路線：先證明可驗收，再放大任務

第 1 天：只做 repo onboarding

選一個非核心 repo，請 Codex 只讀不改，整理模組、測試、風險與建議任務。工程師檢查它有沒有理解錯。

第 2 天：分析一個 failing test

讓 Codex 先提出可能原因與驗證方法。你只允許它執行安全的讀取或測試命令，不讓它直接大改。

第 3 天：做最小修正

挑低耦合 bug 或文件問題，要求最小 diff、清楚測試和風險回報。改完後由人看 diff。

第 4 天：加入 code review 任務

拿一個真實 PR，請 Codex 找漏測、邊界條件、資料風險與可讀性問題。把它當第二意見，不把它當最終批准者。

第 5 天：測 App、Record & Replay 或雲端長任務

如果前三天穩定，再試 Codex App、Record & Replay 或 Codex Web / cloud 的長任務與平行代理。Record & Replay 先選可回退流程，例如建立 issue 草稿或下載測試報表；記錄它是否真的節省切換成本，以及人類審查需要花多久。

第 6–7 天：建立團隊規則

整理可交辦任務、禁止任務、需要批准的命令、測試要求、回報格式、Record & Replay 錄製規則、Automations 停止條件和成本上限。這份文件比任何「神 prompt」都更能保護團隊。

FAQ

Codex 是免費的嗎？

Codex 的可用入口與額度會跟 ChatGPT 方案、Codex for Work、企業工作區或 API key 設定有關。OpenAI 2026/2 的 Codex App 公告提過限時納入 ChatGPT Free / Go 並提高付費方案額度；正式使用前，請以 OpenAI Codex、ChatGPT Plans 和你的工作區方案頁為準。

Codex CLI 是開源嗎？

OpenAI 的 Codex CLI GitHub repository 標示 Apache-2.0 授權，CLI 可在本機終端機執行。但這不等於 Codex 模型權重開放，也不等於你能離線自架 OpenAI 模型。請把 CLI 工具授權、ChatGPT 方案、API 計費和雲端任務分開看。

Codex 和 ChatGPT 寫 code 差在哪？

ChatGPT 適合解釋、討論和產生片段；Codex 適合在 repo 工作區裡讀檔、改檔、跑測試和準備審查。只問概念用 ChatGPT；要讓 AI 進入工程流程，才需要 Codex 這種代理工作流。

Codex、Claude Code、Cursor 要先學哪個？

如果你是初學者或只想在編輯器快速改小功能，可以先用 Cursor 或 Copilot。已經熟 Git、終端機、測試和程式碼審查，可以試 Codex CLI 或 Claude Code。若你要管理多個代理任務、工作樹與雲端長任務，Codex App 的價值會更明顯。

Record & Replay 可以直接拿來跑正式流程嗎？

先從可丟棄、可回退、可人工檢查的流程開始。OpenAI 文件把 Record & Replay 定位成把示範流程轉成技能；它需要 Computer Use，錄製時會觀察必要動作與視窗內容。涉及付款、正式部署、憑證、客戶資料或不可重建資料時，應先拆成沙箱、最小權限、人工確認與稽核紀錄，再評估能否自動化。

企業可以直接把 Codex 開給所有工程師嗎？

不建議一開始就全開。先用非核心 repo 做試點，建立沙箱、核准、網路、憑證、規則、稽核紀錄、成本上限和 PR 審查流程。等低風險任務穩定，再逐步擴大到更多 repo 和團隊。

Sources

№ · further reading