近期中文圈瘋傳「Qwen 3.6 跑分追上 Claude Opus」——這件事一半真、一半誤解。Qwen 3.6 Plus 確實在幾項 benchmark 小勝 Opus,差距也從過去的 15 分縮到 2 分。但這不代表你把產品從 Claude 換成 Qwen 就沒差。本篇拆解數字與實際能力之間的三個陷阱。
📊 先把數字攤出來
2026 年 4 月第三方測試(BenchLM、llm-stats)比較 Qwen 3.6 Plus 與 Claude Opus 4.5/4.6:
| Benchmark | Qwen 3.6 Plus | Claude Opus 4.5 | 領先方 |
|---|---|---|---|
| Aggregate(綜合) | 69 | 76 | Claude +7 |
| SWE-bench Verified | 78.8 | 80.9 | Claude +2.1 |
| Terminal-Bench 2.0 | 61.6 | 59.3 | Qwen +2.3 |
| Instruction Following | 94.3 | 90.9 | Qwen +3.4 |
| Coding 平均 | 64.9 | 62.6 | Qwen +2.3 |
| Knowledge 平均 | 66 | 73.2 | Claude +7.2 |
| Reasoning 平均 | 62 | 67.6 | Claude +5.6 |
| Agentic Tasks | 62 | 65.2 | Claude +3.2 |
客觀描述事實:
- 整體 Claude 仍領先,但差距從 Qwen 3.5 時代的 15+ 分縮到 7 分
- 特定任務 Qwen 已小勝:Terminal Bench、Instruction Following、綜合編程
- Claude 在「需要世界知識與多步推理」的場景仍明顯領先
跑分「接近」是真的,但不同 benchmark 的含意差異很大。下面三個陷阱,是為什麼 benchmark 數字不能直接換成產品決策。
⚠️ 陷阱 1:Benchmark 可能被「優化過度」
所有公開 benchmark 都有一個共同問題:資料集可能已經在訓練資料裡。這叫 benchmark contamination。
SWE-bench、MMLU、GPQA 這些題目公開幾年了,模型訓練時多少會看過類似問題。誰願意投入資源「針對公開 benchmark 優化」,誰就能跑出高分——但這和「真的更聰明」是兩回事。
實務現象:同一個模型,你換個新資料集、換個問法,分數可能掉 10–20%。這不是模型變笨了,是原本的分數本來就有過擬合成分。
怎麼避開這個陷阱:看比較新、閉源、常換題目的 benchmark。例如 LMSys Arena(人類盲測投票)、Artificial Analysis 的綜合評比。這兩個目前 Claude Opus 仍領先。但即使是這些也不完美。
⚠️ 陷阱 2:Benchmark 測「答對」,不測「好不好用」
SWE-bench 的測法:給一個 GitHub issue + repo,模型產生 patch,能通過原本的單元測試就算過。這測的是「能不能產出正確的 diff」。
但你實際做產品時,你關心的是:
- 模型會不會在需求不清楚時主動問澄清,而不是亂猜
- 跑了 30 步 agent 任務,中間出錯能不能發現並回頭
- 拒絕幻覺的品格——Claude 的明顯強項是「我不知道」敢說出口
- 長對話裡的連貫性——不會第 5 輪忘記第 2 輪講過的約定
這些沒有 benchmark 在測。業界叫「vibes」或「taste」——聽起來很玄,但它是模型真正的差異化。
我的實務觀察:Qwen 3.6 Plus 做單一任務很強,但在多輪 agent、模糊需求澄清、拒絕胡扯這幾個面向,Claude Opus 仍有肉眼可見的領先。這個「領先」無法用分數表達。
⚠️ 陷阱 3:Benchmark 不反映「非能力」變數
你選模型時,能力只是一個維度。還有四個 benchmark 不會告訴你的事:
成本:Claude Opus $5 / $25 per million tokens;Qwen 3.6 Plus 目前 OpenRouter 上免費或極低價。如果你每月 API 花費超過 $100,這個差距會淹沒 benchmark 那 2–7 分的差異
速度:Qwen 3.6 Plus 實測比 Claude Opus 快 1.7–3 倍 tokens/s。對使用者等待體感的差異,比 benchmark 高 2 分明顯多了
本地部署:Qwen 3.6-27B / 35B-A3B 開源可本地跑,資料不出境;Claude 永遠只能走 API。對金融、醫療、政府單位這個是硬需求,不是加分項
生態成熟度:Claude 的 tool use、Projects、MCP integration 比 Qwen 成熟很多。如果你是在 Claude Code、Cursor、Zed 這類 IDE 裡用,切換模型會失去整套工作流
💡 Mason 的判斷
我刻意不給你一個簡單的「選 Qwen 還是選 Claude」答案——因為正確答案只有「看你的場景」。
兩邊的合理立場:
支持 Qwen 3.6 Plus 已經夠用的人有理:
- 成本低 5–10 倍、速度快 2 倍、benchmark 差距縮到個位數
- 多數日常應用(文件摘要、程式碼修改、客服 QA)Qwen 完全勝任
- 本地部署選項是 Claude 永遠給不了的
堅持繼續用 Claude Opus的人也有理:
- 「那 2–7 分的差距」在 critical 工作上可能是災難——法律、醫療、財務建議,錯一次抵過省的錢
- Multi-turn agent、拒絕幻覺、品味判斷這些沒 benchmark 測的能力,Claude 仍明顯領先
- 生態(Claude Code、MCP、Projects)切出去的成本可能比模型費用還高
我的實務建議:
- 做一次 POC,用你最常見的 5 個任務實測。不要看 benchmark 決定,benchmark 平均是別人的平均,不是你的
- 把模型切換當作一件可能回頭的事來設計。用 LiteLLM、OpenRouter 這類 router,讓切換成本接近零
- 混用比純選更合理:Qwen 跑量(批次、便宜、快)、Claude 跑 critical(模糊需求澄清、長 agent 任務)
- 別信「跑分接近 = 能力相當」也別信「閉源一定贏」。這兩個都是懶人結論
🎯 不同角色的建議
給企業主:
- 如果你目前月付 Claude API < $50,沒必要折騰切換。維運複雜度大於成本節省
- 如果月付 > $500,認真做 30 天 A/B 測試:同一批使用情境分別餵 Qwen 3.6 Plus 與 Claude Opus,看「客戶投訴率、任務完成率、重跑率」這三個指標。這比 benchmark 準 10 倍
- 資料合規敏感的場景(金融、醫療、政府),本地跑 Qwen 3.6-27B 的價值遠勝雲端 Opus
給開發者:
- 你的 agent 工作流如果現在跑 Claude 順手,別被 benchmark 誘惑隨便換。切換成本通常被嚴重低估
- 同一個任務在兩個模型下寫完 prompt 後實測 20 次,看穩定度而非最高分。很多模型是「高峰很高、谷底很低」,Claude Opus 的優勢常常在「谷底也不差」
- Qwen 3.6 Plus 拿來做成本敏感的批次任務(大量文件摘要、資料清洗、初步分類),Claude 留給真需要品質的場景——這個組合比單押一家便宜又穩
給內容觀察者:
- 請停止用「A 超越 B」這種懶人標題。benchmark 差 2 分跟差 20 分的意義完全不同,但媒體都寫成「追上」
- 更重要的問題不是「Qwen 追上 Claude 沒」,而是「開源頂標和閉源頂標之間的差距,會繼續縮小還是重新拉大」——這才是真正的產業問題
❓ FAQ
那我到底該不該從 Claude Opus 換成 Qwen 3.6?
問你自己三個問題:
- 你每月在 Claude 上花超過 $100 嗎? 如果沒有,切換不划算,省下來的錢不如你測試的時間成本
- 你的任務有「錯一次就很痛」的 critical 成分嗎? 例如法律合約、醫療建議、財務決策——這類情境 benchmark 差 2–5 分可能就是災難
- 你需要本地部署嗎? 如果需要,Qwen 3.6-27B 是目前最強選項,Claude 沒得選
三題都偏 Qwen 就試;偏 Claude 就別動;混合就用 router 分流。
為什麼 benchmark 顯示 Qwen 編程小勝,但我實際用覺得 Claude 寫 code 更好?
你的體感很可能是對的。SWE-bench 測的是「能不能修好 GitHub issue」,和你實際寫 code 的感受不一樣:
- Claude 寫 code 更傾向解釋為什麼這樣寫——這對學習、協作、維護有價值,但 benchmark 不給分
- Claude 的錯誤更保守——它比較常說「這裡我不確定,建議你查一下」。Qwen 常常硬給答案,對了就對了、錯了就是幻覺
- Claude 在理解模糊需求上更強——你講一半它會追問,Qwen 常常自己腦補完就跑
benchmark 只測「產出正確答案」,不測「產出過程的品質」。你的體感在感受後者。
LMSys Arena 為什麼不太受影響?
LMSys Arena 是人類盲測——兩個模型回答同一題,人類不知道哪個是哪個,選哪個更好。這個方法比較難被 benchmark 優化攻擊,因為題目是真實用戶提的、隨機的、每天都在變。
2026 年 4 月的 Arena 排名:Claude Opus 4.5/4.6 仍穩居前段,Qwen 3.6 Plus 有進入前 10 但不是頂。這個和 SWE-bench 等傳統 benchmark 的「接近」有差距——一種可能的解釋是:Qwen 確實在特定任務追上,但在「整體使用體感」這個模糊指標上還沒。
當然 Arena 也有偏誤——人類更偏好長答案、更偏好明確語氣。但它仍是目前最接近「真實使用」的公開指標。
如果半年後 Qwen 真的全面超越 Claude 呢?
可能性不低。開源追閉源的速度在加快——Llama 追 GPT-3.5 花了 18 個月,Qwen 追 Opus 只花了 12 個月。但即使能力全面超越,Claude 還有「生態」這道護城河:Projects、Artifacts、Claude Code、MCP 整合、企業安全認證、客戶支援。這些是模型能力之外的東西。
歷史類比:Linux 早就在很多技術指標上超越 Windows,但 Windows 仍有企業市場。能力贏 ≠ 市場贏。未來 12 個月我會繼續用 Claude 做主力,但混用 Qwen 做成本敏感任務——這個策略無論誰贏都不會出錯。
Sources:
- Qwen 3.6 Plus vs Claude Opus 4.6 — MindStudio
- Claude Opus 4.5 vs Qwen3.6 Plus Benchmark Comparison — BenchLM.ai
- Qwen 3.6 Plus vs Claude Opus 4.6 vs GPT-5.4 — Digital Applied
- Testing Open Source and Commercial LLMs — Akita on Rails
- Is Qwen 3.6-Plus Actually Better Than Claude Opus for Coding? — BSWEN