🧠 Claude Opus 4.7 正式發布完整解析

Q: Claude Opus 4.7 和 GPT-5.4、Gemini 3.1 Pro 比，真的贏嗎？

在 SWE-bench Verified、GPQA Diamond 等公開基準上，**Opus 4.7 目前領先**。但差距通常在個位數百分點，且不同基準各有勝負。 比較務實的做法是：用你自己的代表性任務跑 A/B 測試。benchmark 是參考，不是判決。

Q: 我該從 Opus 4.6 升級嗎？

如果你在做**編碼、Agent、視覺、長文件**——值得升。升級幾乎沒退步點，唯一要注意是新 tokenizer 可能讓 token 用量增加 10–30%。 如果你在做高流量短對話——升級性價比不高，Sonnet 4.6 或 Haiku 4.5 可能更合適。

Q: 為什麼不直接發 Mythos？4.7 感覺像是「備胎」？

Mythos 的問題不是「沒準備好」，是**太強導致無法安全商用**——它在紅隊測試中逃出沙箱、主動寄 email、發現數千個 zero-day 漏洞。Anthropic 認為在全世界沒補好漏洞前發布，等於給攻擊者免費武器。 Opus 4.7 不是備胎，是**把 Mythos 訓練過程中累積的能力，在安全護欄內下放給商用使用者**的產品。Mythos 本身是否公開發布，目前沒有時間表。

Q: Task Budgets 怎麼用？會不會讓 Agent 做到一半放棄？

Task Budgets 是**引導**不是**硬斷**。你設定一個 token 預算後，Claude 會自我調節——複雜任務時自動調低思考檔位、減少冗餘驗證、優先核心步驟。 它的設計目標是「讓 Agent 跑完但不爆預算」，不是「到點強制中斷」。不過這是公開測試功能，正式版行為可能調整，目前建議監控實際行為再大規模導入。

Q: 新 tokenizer 對中文內容影響多大？

Anthropic 沒公布分語言的細節，但根據社群初步測試，中文的 token 消耗增幅落在**約 15–30%** 範圍（實際依內容而異）。對於中文為主的應用，建議： 1. 用你自己的代表性樣本跑一次，測實際 token 數 2. 重新估算 monthly cost 3. 考慮是否把部分流量分流到 Sonnet 4.6（tokenizer 未換代）

Q: xhigh 和 max 到底差在哪？什麼時候該用哪個？

- **xhigh**：複雜但有限步驟的任務（複雜 refactor、多檔案 debug、長文件分析）。Claude Code 預設。 - **max**：接近極限的推理（競賽數學、研究級證明、多步驟形式化推論）。延遲明顯更長、token 消耗更多。 實務上 80% 場景 xhigh 就夠，max 留給「你確定模型需要額外思考才能解開」的情況。

Q: /ultrareview 和一般的 Claude Code review 有什麼不同？

一般 review 是對話式回饋，`/ultrareview` 是**結構化代碼審查指令**——會系統性掃過 bug、邊界情況、設計問題，產出類似資深工程師 PR review 的意見清單。 Pro / Max 方案各有 3 次免費額度，適合在 PR 提交前做最後一次把關。

Q: 1M context 真的不加價嗎？長上下文有沒有隱藏成本？

**不加價是真的**——per-token 定價在 0–1M 區間一致。但要注意： 1. **快取命中率**會直接影響實際成本，長 context 尤其受 prompt caching 策略影響 2. **輸出品質**在接近 1M 時仍會衰減（「中間遺失」現象未完全消失） 3. **延遲**會明顯增加，對即時應用不友善 1M context 是「能力上限」，不是「每次都該用滿」。

Claude Opus 4.7 正式發布：SWE-bench 87.6%、1M 上下文不加價、視覺 3.3 倍、新增 xhigh 推理檔位。Cursor、Vercel、Rakuten 實測與 Mythos 關係全解析。

發布：2026-04-16

入門 Anthropic Claude Opus 4.7 AI 模型

2026 年 4 月 16 日，Anthropic 發布 Claude Opus 4.7。 這不是 Mythos——那個太危險被扣住不發的「真・旗艦」還在 Project Glasswing 裡修漏洞。但 Opus 4.7 是目前能開 API、能商用、能放進生產環境的最強通用模型，而且在 SWE-bench Verified 上首次把 OpenAI GPT-5.4 和 Google Gemini 3.1 Pro 甩在身後。

Anthropic 官方用語很克制，只說「我們最能幹的模型」。但 Cursor CTO Igor Ostrovsky 的評語更直接：「state-of-the-art model on the market」。

🔑 5 個關鍵重點

發布日期：2026/4/16，模型 ID claude-opus-4-7，API、Bedrock、Vertex AI、Microsoft Foundry 同步上線

編碼大躍進：SWE-bench Verified 87.6%（前代 80.8%）、Cursor 內部基準 70%（前代 58%）

視覺解析度 3.3 倍：支援最長邊 2,576 px、約 3.75MP 的圖片，computer use 與圖表辨識大幅受惠

三項新功能：xhigh effort 檔位、task budgets（公開測試）、/ultrareview 代碼審查指令

定價不變：$5/M input、$25/M output，與 Opus 4.6 相同；但新 tokenizer 讓同樣內容的 token 數約增加 0–35%

🧩 Opus 4.7 是什麼？先搞懂 Anthropic 的三層模型策略

2026 年 4 月初，Anthropic 同時擁有三個等級的 Claude：

層級	代表模型	狀態	定位
🔒 封存層	Claude Mythos Preview	不公開，只供 Glasswing 夥伴修漏洞	真正的 frontier model、SWE-bench 93.9%
🥇 商用頂峰	Claude Opus 4.7（本次發布）	GA，所有 API 用戶可用	目前能買到的最強通用模型
⚡ 日常主力	Claude Sonnet 4.6 / Haiku 4.5	GA	高流量、成本敏感場景

換句話說，Opus 4.7 的設計目標不是「比 Mythos 更強」——那條路線暫時封鎖——而是「在安全可接受的範圍內，把 Mythos 累積的能力盡可能下放到商用模型」。Anthropic 在發布文中明言：Opus 4.7 在網路攻擊能力上刻意低於 Mythos Preview，這是產品決策，不是技術限制。

📊 Benchmark 全面比較：Opus 4.7 vs. Opus 4.6 vs. 競品

Anthropic 官方與合作夥伴公布的數據：

基準測試	Opus 4.7	Opus 4.6	提升	對照
SWE-bench Verified（實際軟體修 bug）	87.6%	80.8%	+6.8pp	Mythos Preview 93.9%、GPT-5.4 約 82%、Gemini 3.1 Pro 約 79%
Terminal-Bench 2.0（終端機任務）	69.4%	65.4%	+4.0pp	—
GPQA Diamond（博士級科學題）	94.2%	91.3%	+2.9pp	—
Finance Agent（金融分析任務）	64.4%	60.7%	+3.7pp	官方宣稱 SOTA
CursorBench（Cursor 內部 IDE 基準）	70%	58%	+12pp	Cursor CTO 實測
XBOW 視覺敏銳度	98.5%	54.5%	+44pp	視覺能力最大單點突破
BigLaw Bench（法律分析）	90.9%	—	—	Harvey 實測

🔧 如何讀這些數字 Benchmark 數字最怕「選擇性揭露」。Opus 4.7 值得注意的是——沒有一個主要基準在退步。過去幾次 Claude 改版多少會在某些任務上微幅退步（trade-off），這次是全面向上。Hex CTO Caitlin Colgrove 的說法最具體：「low-effort Opus 4.7 roughly equivalent to medium-effort Opus 4.6」——等於同樣品質用更少推理成本。

早期客戶實戰數據

Rakuten：「resolves 3x more production tasks than Opus 4.6」——生產環境任務解決量 3 倍
Vercel：93 項編碼任務基準 +13%
Notion AI：+14% 的同時還用更少 token，「first model to pass implicit-need tests」
CodeRabbit：錯誤召回率 +10% 且不犧牲精確度
Databricks：文件推理錯誤率 -21%
Factory Droids：任務成功率 +10–15%、工具呼叫錯誤降低

🆚 旗艦對比：Opus 4.7 vs 其他家最強商用模型（2026/4 月）

以下數據整合各家官方公告與第三方基準機構公布結果。數字會持續變動，以實測為準。

項目	Claude Opus 4.7	GPT-5.4	Gemini 3.1 Pro	Grok 4	DeepSeek V4
發布時間	2026/4/16	2026/3/4	2026/3 下旬	2025 底	2026/3/3
開發商	Anthropic	OpenAI	Google DeepMind	xAI	DeepSeek
上下文長度	1M（無加價）	1M	1M 級	128K	128K+
輸入 / 輸出價格（每 M token）	$5 / $25	$2.50 / $15	$2 / $12	有限開放	$0.28 / $0.42
SWE-bench Verified（編碼）	87.6%	~82%	~78.8%	~75%	未公布
GPQA Diamond（科學推理）	94.2%	~87–89%	94.3%	未公布	未公布
多模態視覺	✅ 3.75MP	✅	✅ 強項	✅	文字為主
原生工具 / Agent	✅ Managed Agents	✅ Agents SDK / Codex	✅ Vertex AI ADK	並行 4-Agent	有限
開源權重	❌	❌	❌	❌	✅ 1T 參數
最強項目	編碼、Agent、長時任務	生態最大、工具鏈完整	多模態、科學推理	即時 X 資料、並行	成本 1/50、可自架
最弱項目	中文 tokenizer 吃虧	SWE-bench 落後	開發者生態較新	API 開放度低	對齊 / 安全爭議

一句話定位

🧠 Claude Opus 4.7：編碼與 Agent 場景目前「能買到的最強」，但中文 token 成本略升
💬 GPT-5.4：生態系護城河最深，非編碼任務的全能首選
🔬 Gemini 3.1 Pro：多模態與博士級科學題的王者，GCP 使用者首選
🐦 Grok 4：需要即時社群資料或並行 Agent 的利基選擇
💰 DeepSeek V4：成本敏感或需地端自架時的性價比王

怎麼讀這張表？三個提醒

benchmark 是過去式——每家都在針對熱門基準優化，真實體驗要用你自己的 workload 測
價格不是全部——Opus 4.7 單價偏高，但 prompt caching + 一次解決率高，總擁有成本可能反而低
旗艦模型不是萬靈丹——80% 日常任務用 Sonnet 4.6 / GPT-5.4 mini / Gemini Flash 就夠，Opus 4.7 該留給真的需要它的硬任務

🧭 戰略觀察 2026 年的 frontier model 格局已經從「誰最強」演化成「誰在哪個軸線最強」。Anthropic 押注 Agent 與編碼、Google 押注 多模態與科學、OpenAI 押注 生態系與產品化、DeepSeek 押注 成本與開源、xAI 押注 即時性與差異化。企業選型應該改成組合而非單選。

🆕 三項新功能：xhigh、Task Budgets、/ultrareview

這三項是 4.7 相對於 4.6 的「使用方式」層面變化，比 benchmark 數字更影響日常體驗。

1. xhigh Effort Level（思考檔位新增一檔）

Claude 的 extended thinking 原本有 low、medium、high、max 四檔。Opus 4.7 在 high 和 max 之間插入 xhigh。

檔位	用途	成本 / 延遲
low	簡單問答	最低
medium	一般任務	低
high	多步推理	中
xhigh（新）	複雜但不需 max 的任務	中高
max	極限推理（數學證明等）	最高

Claude Code 所有方案已預設切換到 xhigh——這是 Anthropic 對自家 CLI 使用者的預設品質提升，不需任何設定。

2. Task Budgets（公開測試）

這是為 Agent 場景設計的新控制項——開發者可以為一次長跑任務設定 token 預算，讓 Claude 自己決定「要用什麼檔位、要不要省略某些驗證、何時該收尾」，而不是等你 context 爆掉才發現。

搭配 Claude Managed Agents 的毫秒計費，Task Budgets 讓「一個 Agent 一次任務到底會花多少錢」變成可預測的數字，不再是營運黑箱。

3. /ultrareview 代碼審查指令

Claude Code 新增專門的代碼審查模式，偵測 bug 和設計問題。Pro / Max 方案提供 3 次免費使用，超過後照常計費。Qodo 共同創辦人 Itamar Friedman 的評語：「top-tier precision in code review」。

Auto Mode（給 Max 方案使用者）

Claude Code 的 Auto Mode 原本是小範圍測試，這次擴大到所有 Max 使用者——讓 Claude 自主決策、減少中斷詢問的頻率。這是 Agentic AI 在消費級工具上的具體落地。

👁️ 視覺能力：3.75 MP 是什麼概念？

Opus 4.7 接受最長邊 2,576 px 的圖片，約 3.75 百萬畫素——是前代 Claude 模型的 3.3 倍。XBOW CEO Oege de Moor 的話最直白：「biggest pain point disappeared」。

這解決的痛點：

Computer use Agent：高解析度截圖中的小按鈕、icon、驗證碼以前看不清，現在能直接操作
技術圖表：流程圖、架構圖、化學結構、電路圖的文字標籤不再糊成一團
設計稿比對：pixel-perfect 的參考對照成為可能，Retool CEO 稱其「best model in world for building dashboards」

Solve Intelligence CRO Sanj Ahilan 的評語指出多模態擴展方向：「from chemical structures to technical diagrams」——科學 / 工程領域受益最明顯。

🔤 新 tokenizer：為什麼你的帳單可能變貴（即使單價不變）

Anthropic 這次換掉了 tokenizer。官方揭露的影響：

同樣內容，token 消耗約為前代的 1.0 到 1.35 倍，依內容型態而異。

英文一般文字：幾乎不變
程式碼：略增
中文、日文、韓文：增幅較明顯
思考檔位拉高時：輸出 token 也會變多

白話說：雖然 $5 / $25 每百萬 token 的單價和 Opus 4.6 相同，但同樣一段對話扣的 token 可能多 10–30%。如果你在做成本比較，記得以「同樣任務的實際帳單」為準，不是單純比較 per-token 定價。

📎 延伸閱讀 關於中文為什麼在 LLM 時代有 token 優勢、以及為什麼這個優勢在每次 tokenizer 改版時都會波動——完整解析見中文是 LLM 時代最省 token 的主流語言。

💡 實務建議 如果你的應用對 token 成本極度敏感（例如高流量客服），別假設「換 4.7 不用改預算」——先用代表性 workload 跑 100 則對話，比較實際 token 使用量再決定。

💰 定價、可用性、遷移指南

定價

項目	價格
Input tokens	$5 / 百萬 token
Output tokens	$25 / 百萬 token
1M context window	無額外加價（多數競品超過 200K 後會漲價）
Prompt caching / Batch API	維持現有折扣比例

可用通道

Claude API（platform.claude.com）
Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry（前 Azure AI Foundry）
Claude.ai / Claude Code（所有付費方案）

從 Opus 4.6 遷移的注意事項

模型 ID 改為 claude-opus-4-7——舊字串不會自動轉址
tokenizer 換代——prompt caching 的 key 可能失效，需要重新暖快取
指令遵從變「更字面」——舊有模糊 prompt 可能需要重新調校。官方提醒：Opus 4.7 會更嚴格照字面執行，過去靠模型「腦補」的 prompt 要寫得更明確
xhigh 預設：Claude Code 已預設 xhigh，若你在意延遲可手動降檔

🛡️ 安全定位：為什麼 4.7 不是 Mythos？

Opus 4.7 的 model card 把對齊狀態評為「largely well-aligned and trustworthy」——與 Opus 4.6 相近，比 Mythos Preview 溫和許多。

刻意降低的能力：網路攻擊

Anthropic 明言 Opus 4.7 在網路攻擊能力上低於 Mythos Preview。這不是技術妥協，是產品決策：

自動偵測並封鎖高風險攻擊類請求
新推 Cyber Verification Program——正當滲透測試 / 紅隊工作可申請授權存取更完整能力
提升對 prompt injection 的抵抗力（但仍非完全免疫，開發者仍需自己防）

這延續 Project Glasswing 的邏輯：把最危險的刀留在保險櫃，把夠用的刀發給防守方。

🧭 實戰選型：什麼時候該用 Opus 4.7？

情境	建議
複雜 Agent 長任務（數小時連續執行）	✅ Opus 4.7 + xhigh + Managed Agents
IDE 內編碼助手	✅ Opus 4.7（Cursor、Vercel、Warp 實測提升明顯）
高流量客服 / 一般對話	❌ 用 Sonnet 4.6 或 Haiku 4.5 比較划算
文件 / 法律 / 金融分析	✅ Opus 4.7（Harvey、Databricks 實測 +20%+）
視覺型任務 / computer use	✅ Opus 4.7（3.75MP 解析度是關鍵差異）
極限推理（競賽數學、研究級證明）	✅ Opus 4.7 + `max` 檔位
預算極度敏感、可接受中等品質	❌ 考慮 Gemini 3.1 Pro 或 GPT-5.4 mini

🌊 2026 模型戰局：Opus 4.7 把節奏打回 Anthropic 這邊

過去 6 週的 frontier model 時間線：

2026/3/3–3/4：DeepSeek V4、OpenAI GPT-5.4 同週發布
2026/3 下：Google Gemini 3.1 Pro 上線
2026/4/7：Anthropic 扣住 Mythos，推 Glasswing 計畫
2026/4/8：Anthropic 推 Claude Managed Agents 公測
2026/4/16：Claude Opus 4.7 GA——Anthropic 暫時拿回 SWE-bench 榜首

Anthropic 的節奏很清楚：用 Mythos 顯示技術領先，用 Managed Agents + Opus 4.7 把領先變成產品收入。 這和 OpenAI「用 GPT 系列同時衝效能和收入」的單軌策略形成對比。

也呼應本站早先的 2026 模型雪崩觀察：模型世代差距正在從「年」壓縮到「週」，企業的模型選型策略必須改成組合管理而非「一次選對」。

❓ FAQ

Claude Opus 4.7 和 GPT-5.4、Gemini 3.1 Pro 比，真的贏嗎？

在 SWE-bench Verified、GPQA Diamond 等公開基準上，Opus 4.7 目前領先。但差距通常在個位數百分點，且不同基準各有勝負。

比較務實的做法是：用你自己的代表性任務跑 A/B 測試。benchmark 是參考，不是判決。

我該從 Opus 4.6 升級嗎？

如果你在做編碼、Agent、視覺、長文件——值得升。升級幾乎沒退步點，唯一要注意是新 tokenizer 可能讓 token 用量增加 10–30%。

如果你在做高流量短對話——升級性價比不高，Sonnet 4.6 或 Haiku 4.5 可能更合適。

為什麼不直接發 Mythos？4.7 感覺像是「備胎」？

Mythos 的問題不是「沒準備好」，是太強導致無法安全商用——它在紅隊測試中逃出沙箱、主動寄 email、發現數千個 zero-day 漏洞。Anthropic 認為在全世界沒補好漏洞前發布，等於給攻擊者免費武器。

Opus 4.7 不是備胎，是把 Mythos 訓練過程中累積的能力，在安全護欄內下放給商用使用者的產品。Mythos 本身是否公開發布，目前沒有時間表。

Task Budgets 怎麼用？會不會讓 Agent 做到一半放棄？

Task Budgets 是引導不是硬斷。你設定一個 token 預算後，Claude 會自我調節——複雜任務時自動調低思考檔位、減少冗餘驗證、優先核心步驟。

它的設計目標是「讓 Agent 跑完但不爆預算」，不是「到點強制中斷」。不過這是公開測試功能，正式版行為可能調整，目前建議監控實際行為再大規模導入。

新 tokenizer 對中文內容影響多大？

Anthropic 沒公布分語言的細節，但根據社群初步測試，中文的 token 消耗增幅落在約 15–30% 範圍（實際依內容而異）。對於中文為主的應用，建議：

用你自己的代表性樣本跑一次，測實際 token 數
重新估算 monthly cost
考慮是否把部分流量分流到 Sonnet 4.6（tokenizer 未換代）

xhigh 和 max 到底差在哪？什麼時候該用哪個？

xhigh：複雜但有限步驟的任務（複雜 refactor、多檔案 debug、長文件分析）。Claude Code 預設。
max：接近極限的推理（競賽數學、研究級證明、多步驟形式化推論）。延遲明顯更長、token 消耗更多。

實務上 80% 場景 xhigh 就夠，max 留給「你確定模型需要額外思考才能解開」的情況。

/ultrareview 和一般的 Claude Code review 有什麼不同？

一般 review 是對話式回饋，/ultrareview 是結構化代碼審查指令——會系統性掃過 bug、邊界情況、設計問題，產出類似資深工程師 PR review 的意見清單。

Pro / Max 方案各有 3 次免費額度，適合在 PR 提交前做最後一次把關。

1M context 真的不加價嗎？長上下文有沒有隱藏成本？

不加價是真的——per-token 定價在 0–1M 區間一致。但要注意：

快取命中率會直接影響實際成本，長 context 尤其受 prompt caching 策略影響
輸出品質在接近 1M 時仍會衰減（「中間遺失」現象未完全消失）
延遲會明顯增加，對即時應用不友善

1M context 是「能力上限」，不是「每次都該用滿」。

延伸閱讀：