2026 年 4 月 16 日,Anthropic 發布 Claude Opus 4.7。 這不是 Mythos——那個太危險被扣住不發的「真・旗艦」還在 Project Glasswing 裡修漏洞。但 Opus 4.7 是目前能開 API、能商用、能放進生產環境的最強通用模型,而且在 SWE-bench Verified 上首次把 OpenAI GPT-5.4 和 Google Gemini 3.1 Pro 甩在身後。
Anthropic 官方用語很克制,只說「我們最能幹的模型」。但 Cursor CTO Igor Ostrovsky 的評語更直接:「state-of-the-art model on the market」。
🔑 5 個關鍵重點
- 發布日期:2026/4/16,模型 ID
claude-opus-4-7,API、Bedrock、Vertex AI、Microsoft Foundry 同步上線- 編碼大躍進:SWE-bench Verified 87.6%(前代 80.8%)、Cursor 內部基準 70%(前代 58%)
- 視覺解析度 3.3 倍:支援最長邊 2,576 px、約 3.75MP 的圖片,computer use 與圖表辨識大幅受惠
- 三項新功能:xhigh effort 檔位、task budgets(公開測試)、/ultrareview 代碼審查指令
- 定價不變:$5/M input、$25/M output,與 Opus 4.6 相同;但新 tokenizer 讓同樣內容的 token 數約增加 0–35%
🧩 Opus 4.7 是什麼?先搞懂 Anthropic 的三層模型策略
2026 年 4 月初,Anthropic 同時擁有三個等級的 Claude:
| 層級 | 代表模型 | 狀態 | 定位 |
|---|---|---|---|
| 🔒 封存層 | Claude Mythos Preview | 不公開,只供 Glasswing 夥伴修漏洞 | 真正的 frontier model、SWE-bench 93.9% |
| 🥇 商用頂峰 | Claude Opus 4.7(本次發布) | GA,所有 API 用戶可用 | 目前能買到的最強通用模型 |
| ⚡ 日常主力 | Claude Sonnet 4.6 / Haiku 4.5 | GA | 高流量、成本敏感場景 |
換句話說,Opus 4.7 的設計目標不是「比 Mythos 更強」——那條路線暫時封鎖——而是「在安全可接受的範圍內,把 Mythos 累積的能力盡可能下放到商用模型」。Anthropic 在發布文中明言:Opus 4.7 在網路攻擊能力上刻意低於 Mythos Preview,這是產品決策,不是技術限制。
📊 Benchmark 全面比較:Opus 4.7 vs. Opus 4.6 vs. 競品
Anthropic 官方與合作夥伴公布的數據:
| 基準測試 | Opus 4.7 | Opus 4.6 | 提升 | 對照 |
|---|---|---|---|---|
| SWE-bench Verified(實際軟體修 bug) | 87.6% | 80.8% | +6.8pp | Mythos Preview 93.9%、GPT-5.4 約 82%、Gemini 3.1 Pro 約 79% |
| Terminal-Bench 2.0(終端機任務) | 69.4% | 65.4% | +4.0pp | — |
| GPQA Diamond(博士級科學題) | 94.2% | 91.3% | +2.9pp | — |
| Finance Agent(金融分析任務) | 64.4% | 60.7% | +3.7pp | 官方宣稱 SOTA |
| CursorBench(Cursor 內部 IDE 基準) | 70% | 58% | +12pp | Cursor CTO 實測 |
| XBOW 視覺敏銳度 | 98.5% | 54.5% | +44pp | 視覺能力最大單點突破 |
| BigLaw Bench(法律分析) | 90.9% | — | — | Harvey 實測 |
🔧 如何讀這些數字 Benchmark 數字最怕「選擇性揭露」。Opus 4.7 值得注意的是——沒有一個主要基準在退步。過去幾次 Claude 改版多少會在某些任務上微幅退步(trade-off),這次是全面向上。Hex CTO Caitlin Colgrove 的說法最具體:「low-effort Opus 4.7 roughly equivalent to medium-effort Opus 4.6」——等於同樣品質用更少推理成本。
早期客戶實戰數據
- Rakuten:「resolves 3x more production tasks than Opus 4.6」——生產環境任務解決量 3 倍
- Vercel:93 項編碼任務基準 +13%
- Notion AI:+14% 的同時還用更少 token,「first model to pass implicit-need tests」
- CodeRabbit:錯誤召回率 +10% 且不犧牲精確度
- Databricks:文件推理錯誤率 -21%
- Factory Droids:任務成功率 +10–15%、工具呼叫錯誤降低
🆚 旗艦對比:Opus 4.7 vs 其他家最強商用模型(2026/4 月)
以下數據整合各家官方公告與第三方基準機構公布結果。數字會持續變動,以實測為準。
| 項目 | Claude Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro | Grok 4 | DeepSeek V4 |
|---|---|---|---|---|---|
| 發布時間 | 2026/4/16 | 2026/3/4 | 2026/3 下旬 | 2025 底 | 2026/3/3 |
| 開發商 | Anthropic | OpenAI | Google DeepMind | xAI | DeepSeek |
| 上下文長度 | 1M(無加價) | 1M | 1M 級 | 128K | 128K+ |
| 輸入 / 輸出價格(每 M token) | $5 / $25 | $2.50 / $15 | $2 / $12 | 有限開放 | $0.28 / $0.42 |
| SWE-bench Verified(編碼) | 87.6% | ~82% | ~78.8% | ~75% | 未公布 |
| GPQA Diamond(科學推理) | 94.2% | ~87–89% | 94.3% | 未公布 | 未公布 |
| 多模態視覺 | ✅ 3.75MP | ✅ | ✅ 強項 | ✅ | 文字為主 |
| 原生工具 / Agent | ✅ Managed Agents | ✅ Agents SDK / Codex | ✅ Vertex AI ADK | 並行 4-Agent | 有限 |
| 開源權重 | ❌ | ❌ | ❌ | ❌ | ✅ 1T 參數 |
| 最強項目 | 編碼、Agent、長時任務 | 生態最大、工具鏈完整 | 多模態、科學推理 | 即時 X 資料、並行 | 成本 1/50、可自架 |
| 最弱項目 | 中文 tokenizer 吃虧 | SWE-bench 落後 | 開發者生態較新 | API 開放度低 | 對齊 / 安全爭議 |
一句話定位
- 🧠 Claude Opus 4.7:編碼與 Agent 場景目前「能買到的最強」,但中文 token 成本略升
- 💬 GPT-5.4:生態系護城河最深,非編碼任務的全能首選
- 🔬 Gemini 3.1 Pro:多模態與博士級科學題的王者,GCP 使用者首選
- 🐦 Grok 4:需要即時社群資料或並行 Agent 的利基選擇
- 💰 DeepSeek V4:成本敏感或需地端自架時的性價比王
怎麼讀這張表?三個提醒
- benchmark 是過去式——每家都在針對熱門基準優化,真實體驗要用你自己的 workload 測
- 價格不是全部——Opus 4.7 單價偏高,但 prompt caching + 一次解決率高,總擁有成本可能反而低
- 旗艦模型不是萬靈丹——80% 日常任務用 Sonnet 4.6 / GPT-5.4 mini / Gemini Flash 就夠,Opus 4.7 該留給真的需要它的硬任務
🧭 戰略觀察 2026 年的 frontier model 格局已經從「誰最強」演化成「誰在哪個軸線最強」。Anthropic 押注 Agent 與編碼、Google 押注 多模態與科學、OpenAI 押注 生態系與產品化、DeepSeek 押注 成本與開源、xAI 押注 即時性與差異化。企業選型應該改成組合而非單選。
🆕 三項新功能:xhigh、Task Budgets、/ultrareview
這三項是 4.7 相對於 4.6 的「使用方式」層面變化,比 benchmark 數字更影響日常體驗。
1. xhigh Effort Level(思考檔位新增一檔)
Claude 的 extended thinking 原本有 low、medium、high、max 四檔。Opus 4.7 在 high 和 max 之間插入 xhigh。
| 檔位 | 用途 | 成本 / 延遲 |
|---|---|---|
| low | 簡單問答 | 最低 |
| medium | 一般任務 | 低 |
| high | 多步推理 | 中 |
| xhigh(新) | 複雜但不需 max 的任務 | 中高 |
| max | 極限推理(數學證明等) | 最高 |
Claude Code 所有方案已預設切換到 xhigh——這是 Anthropic 對自家 CLI 使用者的預設品質提升,不需任何設定。
2. Task Budgets(公開測試)
這是為 Agent 場景設計的新控制項——開發者可以為一次長跑任務設定 token 預算,讓 Claude 自己決定「要用什麼檔位、要不要省略某些驗證、何時該收尾」,而不是等你 context 爆掉才發現。
搭配 Claude Managed Agents 的毫秒計費,Task Budgets 讓「一個 Agent 一次任務到底會花多少錢」變成可預測的數字,不再是營運黑箱。
3. /ultrareview 代碼審查指令
Claude Code 新增專門的代碼審查模式,偵測 bug 和設計問題。Pro / Max 方案提供 3 次免費使用,超過後照常計費。Qodo 共同創辦人 Itamar Friedman 的評語:「top-tier precision in code review」。
Auto Mode(給 Max 方案使用者)
Claude Code 的 Auto Mode 原本是小範圍測試,這次擴大到所有 Max 使用者——讓 Claude 自主決策、減少中斷詢問的頻率。這是 Agentic AI 在消費級工具上的具體落地。
👁️ 視覺能力:3.75 MP 是什麼概念?
Opus 4.7 接受最長邊 2,576 px 的圖片,約 3.75 百萬畫素——是前代 Claude 模型的 3.3 倍。XBOW CEO Oege de Moor 的話最直白:「biggest pain point disappeared」。
這解決的痛點:
- Computer use Agent:高解析度截圖中的小按鈕、icon、驗證碼以前看不清,現在能直接操作
- 技術圖表:流程圖、架構圖、化學結構、電路圖的文字標籤不再糊成一團
- 設計稿比對:pixel-perfect 的參考對照成為可能,Retool CEO 稱其「best model in world for building dashboards」
Solve Intelligence CRO Sanj Ahilan 的評語指出多模態擴展方向:「from chemical structures to technical diagrams」——科學 / 工程領域受益最明顯。
🔤 新 tokenizer:為什麼你的帳單可能變貴(即使單價不變)
Anthropic 這次換掉了 tokenizer。官方揭露的影響:
同樣內容,token 消耗約為前代的 1.0 到 1.35 倍,依內容型態而異。
- 英文一般文字:幾乎不變
- 程式碼:略增
- 中文、日文、韓文:增幅較明顯
- 思考檔位拉高時:輸出 token 也會變多
白話說:雖然 $5 / $25 每百萬 token 的單價和 Opus 4.6 相同,但同樣一段對話扣的 token 可能多 10–30%。如果你在做成本比較,記得以「同樣任務的實際帳單」為準,不是單純比較 per-token 定價。
📎 延伸閱讀 關於中文為什麼在 LLM 時代有 token 優勢、以及為什麼這個優勢在每次 tokenizer 改版時都會波動——完整解析見 中文是 LLM 時代最省 token 的主流語言。
💡 實務建議 如果你的應用對 token 成本極度敏感(例如高流量客服),別假設「換 4.7 不用改預算」——先用代表性 workload 跑 100 則對話,比較實際 token 使用量再決定。
💰 定價、可用性、遷移指南
定價
| 項目 | 價格 |
|---|---|
| Input tokens | $5 / 百萬 token |
| Output tokens | $25 / 百萬 token |
| 1M context window | 無額外加價(多數競品超過 200K 後會漲價) |
| Prompt caching / Batch API | 維持現有折扣比例 |
可用通道
- Claude API(platform.claude.com)
- Amazon Bedrock
- Google Cloud Vertex AI
- Microsoft Foundry(前 Azure AI Foundry)
- Claude.ai / Claude Code(所有付費方案)
從 Opus 4.6 遷移的注意事項
- 模型 ID 改為
claude-opus-4-7——舊字串不會自動轉址 - tokenizer 換代——prompt caching 的 key 可能失效,需要重新暖快取
- 指令遵從變「更字面」——舊有模糊 prompt 可能需要重新調校。官方提醒:Opus 4.7 會更嚴格照字面執行,過去靠模型「腦補」的 prompt 要寫得更明確
- xhigh 預設:Claude Code 已預設 xhigh,若你在意延遲可手動降檔
🛡️ 安全定位:為什麼 4.7 不是 Mythos?
Opus 4.7 的 model card 把對齊狀態評為「largely well-aligned and trustworthy」——與 Opus 4.6 相近,比 Mythos Preview 溫和許多。
刻意降低的能力:網路攻擊
Anthropic 明言 Opus 4.7 在網路攻擊能力上低於 Mythos Preview。這不是技術妥協,是產品決策:
- 自動偵測並封鎖高風險攻擊類請求
- 新推 Cyber Verification Program——正當滲透測試 / 紅隊工作可申請授權存取更完整能力
- 提升對 prompt injection 的抵抗力(但仍非完全免疫,開發者仍需自己防)
這延續 Project Glasswing 的邏輯:把最危險的刀留在保險櫃,把夠用的刀發給防守方。
🧭 實戰選型:什麼時候該用 Opus 4.7?
| 情境 | 建議 |
|---|---|
| 複雜 Agent 長任務(數小時連續執行) | ✅ Opus 4.7 + xhigh + Managed Agents |
| IDE 內編碼助手 | ✅ Opus 4.7(Cursor、Vercel、Warp 實測提升明顯) |
| 高流量客服 / 一般對話 | ❌ 用 Sonnet 4.6 或 Haiku 4.5 比較划算 |
| 文件 / 法律 / 金融分析 | ✅ Opus 4.7(Harvey、Databricks 實測 +20%+) |
| 視覺型任務 / computer use | ✅ Opus 4.7(3.75MP 解析度是關鍵差異) |
| 極限推理(競賽數學、研究級證明) | ✅ Opus 4.7 + max 檔位 |
| 預算極度敏感、可接受中等品質 | ❌ 考慮 Gemini 3.1 Pro 或 GPT-5.4 mini |
🌊 2026 模型戰局:Opus 4.7 把節奏打回 Anthropic 這邊
過去 6 週的 frontier model 時間線:
- 2026/3/3–3/4:DeepSeek V4、OpenAI GPT-5.4 同週發布
- 2026/3 下:Google Gemini 3.1 Pro 上線
- 2026/4/7:Anthropic 扣住 Mythos,推 Glasswing 計畫
- 2026/4/8:Anthropic 推 Claude Managed Agents 公測
- 2026/4/16:Claude Opus 4.7 GA——Anthropic 暫時拿回 SWE-bench 榜首
Anthropic 的節奏很清楚:用 Mythos 顯示技術領先,用 Managed Agents + Opus 4.7 把領先變成產品收入。 這和 OpenAI「用 GPT 系列同時衝效能和收入」的單軌策略形成對比。
也呼應本站早先的 2026 模型雪崩 觀察:模型世代差距正在從「年」壓縮到「週」,企業的模型選型策略必須改成組合管理而非「一次選對」。
❓ FAQ
Claude Opus 4.7 和 GPT-5.4、Gemini 3.1 Pro 比,真的贏嗎?
在 SWE-bench Verified、GPQA Diamond 等公開基準上,Opus 4.7 目前領先。但差距通常在個位數百分點,且不同基準各有勝負。
比較務實的做法是:用你自己的代表性任務跑 A/B 測試。benchmark 是參考,不是判決。
我該從 Opus 4.6 升級嗎?
如果你在做編碼、Agent、視覺、長文件——值得升。升級幾乎沒退步點,唯一要注意是新 tokenizer 可能讓 token 用量增加 10–30%。
如果你在做高流量短對話——升級性價比不高,Sonnet 4.6 或 Haiku 4.5 可能更合適。
為什麼不直接發 Mythos?4.7 感覺像是「備胎」?
Mythos 的問題不是「沒準備好」,是太強導致無法安全商用——它在紅隊測試中逃出沙箱、主動寄 email、發現數千個 zero-day 漏洞。Anthropic 認為在全世界沒補好漏洞前發布,等於給攻擊者免費武器。
Opus 4.7 不是備胎,是把 Mythos 訓練過程中累積的能力,在安全護欄內下放給商用使用者的產品。Mythos 本身是否公開發布,目前沒有時間表。
Task Budgets 怎麼用?會不會讓 Agent 做到一半放棄?
Task Budgets 是引導不是硬斷。你設定一個 token 預算後,Claude 會自我調節——複雜任務時自動調低思考檔位、減少冗餘驗證、優先核心步驟。
它的設計目標是「讓 Agent 跑完但不爆預算」,不是「到點強制中斷」。不過這是公開測試功能,正式版行為可能調整,目前建議監控實際行為再大規模導入。
新 tokenizer 對中文內容影響多大?
Anthropic 沒公布分語言的細節,但根據社群初步測試,中文的 token 消耗增幅落在約 15–30% 範圍(實際依內容而異)。對於中文為主的應用,建議:
- 用你自己的代表性樣本跑一次,測實際 token 數
- 重新估算 monthly cost
- 考慮是否把部分流量分流到 Sonnet 4.6(tokenizer 未換代)
xhigh 和 max 到底差在哪?什麼時候該用哪個?
- xhigh:複雜但有限步驟的任務(複雜 refactor、多檔案 debug、長文件分析)。Claude Code 預設。
- max:接近極限的推理(競賽數學、研究級證明、多步驟形式化推論)。延遲明顯更長、token 消耗更多。
實務上 80% 場景 xhigh 就夠,max 留給「你確定模型需要額外思考才能解開」的情況。
/ultrareview 和一般的 Claude Code review 有什麼不同?
一般 review 是對話式回饋,/ultrareview 是結構化代碼審查指令——會系統性掃過 bug、邊界情況、設計問題,產出類似資深工程師 PR review 的意見清單。
Pro / Max 方案各有 3 次免費額度,適合在 PR 提交前做最後一次把關。
1M context 真的不加價嗎?長上下文有沒有隱藏成本?
不加價是真的——per-token 定價在 0–1M 區間一致。但要注意:
- 快取命中率會直接影響實際成本,長 context 尤其受 prompt caching 策略影響
- 輸出品質在接近 1M 時仍會衰減(「中間遺失」現象未完全消失)
- 延遲會明顯增加,對即時應用不友善
1M context 是「能力上限」,不是「每次都該用滿」。
延伸閱讀: