4 月 24 日 DeepSeek 上線 V4-Preview(代號 V4-Pro):1.6T 總參數 MoE、激活 32B,API 文件直接掛出對比表——SWE-bench Verified 80.6%(Opus 4.6 是 80.8%)、Codeforces 3206(高於 GPT-5.4 的 3168)、AIME 2026 達 95.4%。中文圈又一次「追上前沿」的高潮。
但同月 NIST(美國國家標準局)的 CAISI(Center for AI Standards and Innovation)發布一份獨立評估:DeepSeek V4-Pro 的真實能力,落後美國前沿模型約 8 個月——大致等同於 8 個月前的 GPT-5。
兩份數字差這麼多,誰才是對的?這篇拆給你看。
📊 兩邊的數字攤開來
| Benchmark | DeepSeek V4-Pro 自評 | Anthropic Opus 4.6 | NIST CAISI 重測 V4-Pro |
|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.8% | 73.2% |
| Codeforces Elo | 3206 | (未發) | 3018 |
| AIME 2026 | 95.4% | 96.1% | 91.0% |
| GPQA Diamond | 79.8% | 84.5% | 75.5% |
| MMMU(多模態) | 不支援 | 79.4% | — |
| 長上下文 RULER 1M | 不支援 | 87% | — |
| Agent / Tool Use | 部分支援 | 原生 + MCP | 弱(無原生 tool format) |
兩個重點:
(1) 自評跟第三方差 6-8%——不是「benchmark 造假」,但自評會選對自己有利的版本、有利的 prompt、有利的測試集分割。NIST 用統一的測試流程跑,分數就掉了。
(2) 跑分接近,但能力範圍小很多——V4-Pro 沒有多模態、沒有原生 tool use、長上下文表現差。它在「純文字推理」這個窄縫裡很強,但對 Agent / 多模態應用,實際可用性遠不如 Opus。
🔍 為什麼會有這麼大落差?三個技術陷阱
陷阱 1:Benchmark contamination 規模化
SWE-bench、AIME、GPQA 這些題目都公開了。中國 lab 訓練資料量大、抓網路爬得仔細,同一份試題被訓練看過的機率遠高於美國 lab(後者的合規 / 法律約束更緊)。
NIST CAISI 做了一個對照測試:把 SWE-bench 的同一道題,換上完全不同的變數名、文件結構,DeepSeek V4-Pro 的解題率從 80% 掉到 64%。Opus 4.6 同樣測試掉到 75%——也掉,但掉幅小一半。這個差距不是「能力差距」,是訓練污染差距。
陷阱 2:推論時計算(test-time compute)取巧
V4-Pro 的部分高分來自「推論時跑 16 條 chain-of-thought 然後投票」。這個技巧讓單題分數上去,但 token 消耗也上去 16 倍。實際 API 調用時,DeepSeek 預設不開這個——生產環境跑出來的分,比官方 benchmark 低一截。
NIST CAISI 評估時關閉所有 test-time tricks,只用單次推論,所以分數差更大。
陷阱 3:Agent / 長上下文這些「不性感但關鍵」的能力沒做
DeepSeek 把資源全堆在「跑分能贏的領域」(數學、程式競賽、知識問答),而對 Agent 工作流關鍵的能力——多輪 tool calling 穩定性、長上下文(>200K)的有效注意力、結構化輸出(JSON Schema 嚴格遵守)——這些沒有 benchmark 在主流榜單測,所以沒被優化。
實務後果:用 V4-Pro 寫一個 Agent,跑 5 步以上會開始失憶;丟 50 頁 PDF 會抓不到中段的內容;要它輸出嚴格 JSON 格式有 30% 機率違反 schema。Opus 不是這樣。
🇨🇳 中國 AI 的「跑分先行」策略
DeepSeek、Qwen、Hunyuan 共同特徵:先把跑分做出來、用開源權重炸熱度、再回頭補實際使用體驗。
這個策略對中國 lab 是合理的——地緣政治環境下,他們需要短期贏得「中國 AI 已追上美國」的敘事,不只是為了客戶,也為了政策資源、資本市場、人才招聘。跑分是最快的傳播工具。
但對企業選型,這意味著:
- 看到「中國模型跑分追平 Claude / GPT」要加上 6-12 個月折扣——當下跑分接近,但實際使用體驗大概落後一年
- 開源權重的優勢仍然真實——本地部署、客製化 fine-tune、資料合規,這些 V4-Pro 都做得到,Claude / GPT 永遠做不到
- 跑分接近不等於可以無痛切換,但意味著「成本敏感的批次任務」可以開始考慮中國模型
💡 Mason 的判斷
「DeepSeek V4 追平 Opus」這個句子,7 成是行銷,3 成是真的。 真的是「單題純文字推理」確實做到了同等級;假的是「整體可用性」還差一截。
幾個我的實務建議:
短期(0-6 個月):
- 不要看跑分就把 Claude / GPT 換成 DeepSeek。做你自己的 5 任務 PoC——尤其要測 Agent 多步驟、長文件理解、結構化輸出
- 真要用,作為成本敏感的批次任務(大量資料清洗、初步分類、SEO 內容生成)很合適
- 如果你的應用涉及法律、醫療、金融——繼續用 Claude / GPT,跑分差 1-5 分在這些場景代價很高
中期(6-18 個月):
- DeepSeek V5、Qwen 4 大概會把 Agent / 長上下文 / 多模態補齊。那時才是真的可以考慮主力切換的時間
- 但要注意中國 lab 的政策風險——任何時候都可能被斷開源、斷 API、被列實體清單。重度依賴等於把命運綁給地緣政治
🎯 不同角色的建議
給開發者:
- DeepSeek V4-Pro API 價格 是 Opus 的 1/15(約 $0.27 / $1.1 per million tokens)。跑量任務先試一輪,看效果能接受再放更多
- 如果你寫 Agent,先測「連續 10 步 tool call 不崩」——這是 V4 跟 Opus 之間最容易踩到的差距
- 開源權重(V4-Lite 70B 已釋出)拿來本地 fine-tune 是真的有用——尤其垂直領域微調 + 私有部署的場景
給企業:
- 如果你已經跟某家中國雲廠合作(火山引擎、阿里雲),DeepSeek 整合進你的工作流是合理的——對標應用是「成本敏感、容錯高」的環節
- 不要在客戶面對的 critical path 上單壓中國模型,錯一次的代價遠大於省下的 API 費用
- 預留切換能力——LiteLLM、OpenRouter 這類 router 是必備,讓任何單一供應商出狀況都可以快速切
給政策 / 產業觀察者:
- NIST CAISI 這份獨立評估的方法論值得讀——它示範了「不信任自評,做第三方對照測試」應該怎麼做。未來所有 benchmark 都該往這個方向
- 「中美 AI 差距收窄」這個結論短期是真的(跑分),長期看能力面、生態面、Agent 應用面差距還在——但這個差距正在被中國 lab 加速補上
❓ FAQ
DeepSeek 真的會「假跑分」嗎?
「假」太重——更精確的說法是選擇性報告。DeepSeek 跑了 100 種 prompt + 5 種 sampling 設定,選最好的那組報出來,這在業界算潛規則,但跟「真實使用體驗」會脫鉤。
NIST CAISI 用統一流程跑出來的數字差 6-8%,這個差距規模在所有 lab 都存在(包括 OpenAI、Google),只是 DeepSeek 的差距明顯更大。真正的問題不是誰假,是沒有第三方統一測試的公信力夠的 benchmark。CAISI 是其中一個嘗試。
NIST CAISI 是什麼?他們的評估可信嗎?
CAISI = Center for AI Standards and Innovation,2025 年從原本的 AISI(AI Safety Institute)改組來,隸屬 NIST。任務是為前沿 AI 模型做獨立、可重複的評估,作為政策制定的依據。
可信度比 lab 自評高,但仍有偏誤——它是美國政府機構,評估中國模型時可能不自覺地傾向「保守估計」。理想狀態是有中、美、歐三邊獨立評估互相對照,但目前還沒有。CAISI 是現有最好的選項之一,不代表它是真理。
那 DeepSeek 應該怎麼用最划算?
三個場景最值得試:(1) 大量批次資料處理——成本是 Opus 的 1/15,跑 1 億 token 任務省 $200-300。(2) 中文長文翻譯 / 改寫——V4-Pro 中文表達其實比 Claude 自然(這是它的真強項),適合內容創作底稿。(3) 數學 / 程式競賽輔助——它的 AIME / Codeforces 強項對學生、競賽參賽者真有用。
不適合:Agent 工作流、長文件理解、結構化輸出嚴格場景、客戶面對的 critical 應用。
Sources: