DeepSeek V4 Preview 跑分追平 Opus 4.6:NIST 卻說它落後 8 個月

Q: DeepSeek 真的會「假跑分」嗎？

「假」太重——更精確的說法是**選擇性報告**。DeepSeek 跑了 100 種 prompt + 5 種 sampling 設定，選最好的那組報出來，這在業界算潛規則，但跟「真實使用體驗」會脫鉤。 NIST CAISI 用統一流程跑出來的數字差 6-8%,**這個差距規模在所有 lab 都存在**（包括 OpenAI、Google），只是 DeepSeek 的差距明顯更大。**真正的問題不是誰假**，是**沒有第三方統一測試的公信力夠的 benchmark**。CAISI 是其中一個嘗試。

Q: 那 DeepSeek 應該怎麼用最划算？

三個場景最值得試：**(1) 大量批次資料處理**——成本是 Opus 的 1/15，跑 1 億 token 任務省 $200-300。**(2) 中文長文翻譯 / 改寫**——V4-Pro 中文表達其實比 Claude 自然（這是它的真強項），適合內容創作底稿。**(3) 數學 / 程式競賽輔助**——它的 AIME / Codeforces 強項對學生、競賽參賽者真有用。 不適合：Agent 工作流、長文件理解、結構化輸出嚴格場景、客戶面對的 critical 應用。

DeepSeek V4 自評 SWE-bench 80.6%、Codeforces 3206，逼近前沿。但 NIST CAISI 第三方評估說它仍落後前沿 8 個月。誰才是對的？

發布：2026-05-05

中級 DeepSeek DeepSeek V4 Benchmark

4 月 24 日 DeepSeek 上線 V4-Preview（代號 V4-Pro）:1.6T 總參數 MoE、激活 32B,API 文件直接掛出對比表——SWE-bench Verified 80.6%(Opus 4.6 是 80.8%)、Codeforces 3206（高於 GPT-5.4 的 3168）、AIME 2026 達 95.4%。中文圈又一次「追上前沿」的高潮。

但同月 NIST（美國國家標準局）的 CAISI(Center for AI Standards and Innovation)發布一份獨立評估：DeepSeek V4-Pro 的真實能力，落後美國前沿模型約 8 個月——大致等同於 8 個月前的 GPT-5。

兩份數字差這麼多，誰才是對的？這篇拆給你看。

📊 兩邊的數字攤開來

Benchmark	DeepSeek V4-Pro 自評	Anthropic Opus 4.6	NIST CAISI 重測 V4-Pro
SWE-bench Verified	80.6%	80.8%	73.2%
Codeforces Elo	3206	（未發）	3018
AIME 2026	95.4%	96.1%	91.0%
GPQA Diamond	79.8%	84.5%	75.5%
MMMU（多模態）	不支援	79.4%	—
長上下文 RULER 1M	不支援	87%	—
Agent / Tool Use	部分支援	原生 + MCP	弱（無原生 tool format）

兩個重點：

(1) 自評跟第三方差 6-8%——不是「benchmark 造假」，但自評會選對自己有利的版本、有利的 prompt、有利的測試集分割。NIST 用統一的測試流程跑，分數就掉了。

(2) 跑分接近，但能力範圍小很多——V4-Pro 沒有多模態、沒有原生 tool use、長上下文表現差。它在「純文字推理」這個窄縫裡很強，但對 Agent / 多模態應用，實際可用性遠不如 Opus。

🔍 為什麼會有這麼大落差？三個技術陷阱

陷阱 1:Benchmark contamination 規模化

SWE-bench、AIME、GPQA 這些題目都公開了。中國 lab 訓練資料量大、抓網路爬得仔細，同一份試題被訓練看過的機率遠高於美國 lab（後者的合規 / 法律約束更緊）。

NIST CAISI 做了一個對照測試：把 SWE-bench 的同一道題，換上完全不同的變數名、文件結構,DeepSeek V4-Pro 的解題率從 80% 掉到 64%。Opus 4.6 同樣測試掉到 75%——也掉，但掉幅小一半。這個差距不是「能力差距」,是訓練污染差距。

陷阱 2：推論時計算(test-time compute)取巧

V4-Pro 的部分高分來自「推論時跑 16 條 chain-of-thought 然後投票」。這個技巧讓單題分數上去，但 token 消耗也上去 16 倍。實際 API 調用時，DeepSeek 預設不開這個——生產環境跑出來的分，比官方 benchmark 低一截。

NIST CAISI 評估時關閉所有 test-time tricks，只用單次推論，所以分數差更大。

陷阱 3:Agent / 長上下文這些「不性感但關鍵」的能力沒做

DeepSeek 把資源全堆在「跑分能贏的領域」（數學、程式競賽、知識問答），而對 Agent 工作流關鍵的能力——多輪 tool calling 穩定性、長上下文(>200K)的有效注意力、結構化輸出（JSON Schema 嚴格遵守）——這些沒有 benchmark 在主流榜單測，所以沒被優化。

實務後果：用 V4-Pro 寫一個 Agent，跑 5 步以上會開始失憶；丟 50 頁 PDF 會抓不到中段的內容；要它輸出嚴格 JSON 格式有 30% 機率違反 schema。Opus 不是這樣。

🇨🇳 中國 AI 的「跑分先行」策略

DeepSeek、Qwen、Hunyuan 共同特徵：先把跑分做出來、用開源權重炸熱度、再回頭補實際使用體驗。

這個策略對中國 lab 是合理的——地緣政治環境下，他們需要短期贏得「中國 AI 已追上美國」的敘事，不只是為了客戶，也為了政策資源、資本市場、人才招聘。跑分是最快的傳播工具。

但對企業選型，這意味著：

看到「中國模型跑分追平 Claude / GPT」要加上 6-12 個月折扣——當下跑分接近，但實際使用體驗大概落後一年
開源權重的優勢仍然真實——本地部署、客製化 fine-tune、資料合規，這些 V4-Pro 都做得到，Claude / GPT 永遠做不到
跑分接近不等於可以無痛切換，但意味著「成本敏感的批次任務」可以開始考慮中國模型

💡 Mason 的判斷

「DeepSeek V4 追平 Opus」這個句子，7 成是行銷，3 成是真的。 真的是「單題純文字推理」確實做到了同等級；假的是「整體可用性」還差一截。

幾個我的實務建議：

短期（0-6 個月）:

不要看跑分就把 Claude / GPT 換成 DeepSeek。做你自己的 5 任務 PoC——尤其要測 Agent 多步驟、長文件理解、結構化輸出
真要用，作為成本敏感的批次任務（大量資料清洗、初步分類、SEO 內容生成）很合適
如果你的應用涉及法律、醫療、金融——繼續用 Claude / GPT，跑分差 1-5 分在這些場景代價很高

中期（6-18 個月）:

DeepSeek V5、Qwen 4 大概會把 Agent / 長上下文 / 多模態補齊。那時才是真的可以考慮主力切換的時間
但要注意中國 lab 的政策風險——任何時候都可能被斷開源、斷 API、被列實體清單。重度依賴等於把命運綁給地緣政治

🎯 不同角色的建議

給開發者:

DeepSeek V4-Pro API 價格 是 Opus 的 1/15（約 $0.27 / $1.1 per million tokens）。跑量任務先試一輪，看效果能接受再放更多
如果你寫 Agent,先測「連續 10 步 tool call 不崩」——這是 V4 跟 Opus 之間最容易踩到的差距
開源權重（V4-Lite 70B 已釋出）拿來本地 fine-tune 是真的有用——尤其垂直領域微調 + 私有部署的場景

給企業:

如果你已經跟某家中國雲廠合作（火山引擎、阿里雲）,DeepSeek 整合進你的工作流是合理的——對標應用是「成本敏感、容錯高」的環節
不要在客戶面對的 critical path 上單壓中國模型，錯一次的代價遠大於省下的 API 費用
預留切換能力——LiteLLM、OpenRouter 這類 router 是必備，讓任何單一供應商出狀況都可以快速切

給政策 / 產業觀察者:

NIST CAISI 這份獨立評估的方法論值得讀——它示範了「不信任自評，做第三方對照測試」應該怎麼做。未來所有 benchmark 都該往這個方向
「中美 AI 差距收窄」這個結論短期是真的（跑分），長期看能力面、生態面、Agent 應用面差距還在——但這個差距正在被中國 lab 加速補上

❓ FAQ

DeepSeek 真的會「假跑分」嗎？

「假」太重——更精確的說法是選擇性報告。DeepSeek 跑了 100 種 prompt + 5 種 sampling 設定，選最好的那組報出來，這在業界算潛規則，但跟「真實使用體驗」會脫鉤。

NIST CAISI 用統一流程跑出來的數字差 6-8%,這個差距規模在所有 lab 都存在（包括 OpenAI、Google），只是 DeepSeek 的差距明顯更大。真正的問題不是誰假，是沒有第三方統一測試的公信力夠的 benchmark。CAISI 是其中一個嘗試。

NIST CAISI 是什麼？他們的評估可信嗎？

CAISI = Center for AI Standards and Innovation,2025 年從原本的 AISI(AI Safety Institute)改組來，隸屬 NIST。任務是為前沿 AI 模型做獨立、可重複的評估，作為政策制定的依據。

可信度比 lab 自評高，但仍有偏誤——它是美國政府機構，評估中國模型時可能不自覺地傾向「保守估計」。理想狀態是有中、美、歐三邊獨立評估互相對照，但目前還沒有。CAISI 是現有最好的選項之一，不代表它是真理。

那 DeepSeek 應該怎麼用最划算？

三個場景最值得試：(1) 大量批次資料處理——成本是 Opus 的 1/15，跑 1 億 token 任務省 $200-300。(2) 中文長文翻譯 / 改寫——V4-Pro 中文表達其實比 Claude 自然（這是它的真強項），適合內容創作底稿。(3) 數學 / 程式競賽輔助——它的 AIME / Codeforces 強項對學生、競賽參賽者真有用。

不適合：Agent 工作流、長文件理解、結構化輸出嚴格場景、客戶面對的 critical 應用。

Sources: