Qwen 3.6 跑分追上 Claude Opus？拆解「接近」這兩個字的三個陷阱

Q: 那我到底該不該從 Claude Opus 換成 Qwen 3.6？

問你自己三個問題： 1. **你每月在 Claude 上花超過 $100 嗎？** 如果沒有，切換不划算，省下來的錢不如你測試的時間成本 2. **你的任務有「錯一次就很痛」的 critical 成分嗎？** 例如法律合約、醫療建議、財務決策——這類情境 benchmark 差 2–5 分可能就是災難 3. **你需要本地部署嗎？** 如果需要，Qwen 3.6-27B 是目前最強選項，Claude 沒得選 三題都偏 Qwen 就試；偏 Claude 就別動；混合就用 router 分流。

Q: LMSys Arena 為什麼不太受影響？

LMSys Arena 是人類盲測——兩個模型回答同一題，人類不知道哪個是哪個，選哪個更好。這個方法**比較難被 benchmark 優化攻擊**，因為題目是真實用戶提的、隨機的、每天都在變。 2026 年 4 月的 Arena 排名：Claude Opus 4.5/4.6 仍穩居前段，Qwen 3.6 Plus 有進入前 10 但不是頂。這個和 SWE-bench 等傳統 benchmark 的「接近」有差距——一種可能的解釋是：**Qwen 確實在特定任務追上，但在「整體使用體感」這個模糊指標上還沒**。 當然 Arena 也有偏誤——人類更偏好長答案、更偏好明確語氣。但它仍是目前最接近「真實使用」的公開指標。

Qwen 3.6 Plus 在 Terminal-Bench、Instruction Following 小勝 Claude Opus 4.5；SWE-bench 差距縮到 2.1 分。Mason 拆解 benchmark 與實際能力的落差，助你決策。

發布：2026-04-23

中級 Qwen Claude Opus

近期中文圈瘋傳「Qwen 3.6 跑分追上 Claude Opus」——這件事一半真、一半誤解。Qwen 3.6 Plus 確實在幾項 benchmark 小勝 Opus，差距也從過去的 15 分縮到 2 分。但這不代表你把產品從 Claude 換成 Qwen 就沒差。本篇拆解數字與實際能力之間的三個陷阱。

📊 先把數字攤出來

2026 年 4 月第三方測試（BenchLM、llm-stats）比較 Qwen 3.6 Plus 與 Claude Opus 4.5/4.6：

Benchmark	Qwen 3.6 Plus	Claude Opus 4.5	領先方
Aggregate（綜合）	69	76	Claude +7
SWE-bench Verified	78.8	80.9	Claude +2.1
Terminal-Bench 2.0	61.6	59.3	Qwen +2.3
Instruction Following	94.3	90.9	Qwen +3.4
Coding 平均	64.9	62.6	Qwen +2.3
Knowledge 平均	66	73.2	Claude +7.2
Reasoning 平均	62	67.6	Claude +5.6
Agentic Tasks	62	65.2	Claude +3.2

客觀描述事實：

整體 Claude 仍領先，但差距從 Qwen 3.5 時代的 15+ 分縮到 7 分
特定任務 Qwen 已小勝：Terminal Bench、Instruction Following、綜合編程
Claude 在「需要世界知識與多步推理」的場景仍明顯領先

跑分「接近」是真的，但不同 benchmark 的含意差異很大。下面三個陷阱，是為什麼 benchmark 數字不能直接換成產品決策。

⚠️ 陷阱 1：Benchmark 可能被「優化過度」

所有公開 benchmark 都有一個共同問題：資料集可能已經在訓練資料裡。這叫 benchmark contamination。

SWE-bench、MMLU、GPQA 這些題目公開幾年了，模型訓練時多少會看過類似問題。誰願意投入資源「針對公開 benchmark 優化」，誰就能跑出高分——但這和「真的更聰明」是兩回事。

實務現象：同一個模型，你換個新資料集、換個問法，分數可能掉 10–20%。這不是模型變笨了，是原本的分數本來就有過擬合成分。

怎麼避開這個陷阱：看比較新、閉源、常換題目的 benchmark。例如 LMSys Arena（人類盲測投票）、Artificial Analysis 的綜合評比。這兩個目前 Claude Opus 仍領先。但即使是這些也不完美。

⚠️ 陷阱 2：Benchmark 測「答對」，不測「好不好用」

SWE-bench 的測法：給一個 GitHub issue + repo，模型產生 patch，能通過原本的單元測試就算過。這測的是「能不能產出正確的 diff」。

但你實際做產品時，你關心的是：

模型會不會在需求不清楚時主動問澄清，而不是亂猜
跑了 30 步 agent 任務，中間出錯能不能發現並回頭
拒絕幻覺的品格——Claude 的明顯強項是「我不知道」敢說出口
長對話裡的連貫性——不會第 5 輪忘記第 2 輪講過的約定

這些沒有 benchmark 在測。業界叫「vibes」或「taste」——聽起來很玄，但它是模型真正的差異化。

我的實務觀察：Qwen 3.6 Plus 做單一任務很強，但在多輪 agent、模糊需求澄清、拒絕胡扯這幾個面向，Claude Opus 仍有肉眼可見的領先。這個「領先」無法用分數表達。

⚠️ 陷阱 3：Benchmark 不反映「非能力」變數

你選模型時，能力只是一個維度。還有四個 benchmark 不會告訴你的事：

成本：Claude Opus $5 / $25 per million tokens；Qwen 3.6 Plus 目前 OpenRouter 上免費或極低價。如果你每月 API 花費超過 $100，這個差距會淹沒 benchmark 那 2–7 分的差異

速度：Qwen 3.6 Plus 實測比 Claude Opus 快 1.7–3 倍 tokens/s。對使用者等待體感的差異，比 benchmark 高 2 分明顯多了

本地部署：Qwen 3.6-27B / 35B-A3B 開源可本地跑，資料不出境；Claude 永遠只能走 API。對金融、醫療、政府單位這個是硬需求，不是加分項

生態成熟度：Claude 的 tool use、Projects、MCP integration 比 Qwen 成熟很多。如果你是在 Claude Code、Cursor、Zed 這類 IDE 裡用，切換模型會失去整套工作流

💡 Mason 的判斷

我刻意不給你一個簡單的「選 Qwen 還是選 Claude」答案——因為正確答案只有「看你的場景」。

兩邊的合理立場：

支持 Qwen 3.6 Plus 已經夠用的人有理：

成本低 5–10 倍、速度快 2 倍、benchmark 差距縮到個位數
多數日常應用（文件摘要、程式碼修改、客服 QA）Qwen 完全勝任
本地部署選項是 Claude 永遠給不了的

堅持繼續用 Claude Opus的人也有理：

「那 2–7 分的差距」在 critical 工作上可能是災難——法律、醫療、財務建議，錯一次抵過省的錢
Multi-turn agent、拒絕幻覺、品味判斷這些沒 benchmark 測的能力，Claude 仍明顯領先
生態（Claude Code、MCP、Projects）切出去的成本可能比模型費用還高

我的實務建議：

做一次 POC，用你最常見的 5 個任務實測。不要看 benchmark 決定，benchmark 平均是別人的平均，不是你的
把模型切換當作一件可能回頭的事來設計。用 LiteLLM、OpenRouter 這類 router，讓切換成本接近零
混用比純選更合理：Qwen 跑量（批次、便宜、快）、Claude 跑 critical（模糊需求澄清、長 agent 任務）
別信「跑分接近 = 能力相當」也別信「閉源一定贏」。這兩個都是懶人結論

🎯 不同角色的建議

給企業主：

如果你目前月付 Claude API < $50，沒必要折騰切換。維運複雜度大於成本節省
如果月付 > $500，認真做 30 天 A/B 測試：同一批使用情境分別餵 Qwen 3.6 Plus 與 Claude Opus，看「客戶投訴率、任務完成率、重跑率」這三個指標。這比 benchmark 準 10 倍
資料合規敏感的場景（金融、醫療、政府），本地跑 Qwen 3.6-27B 的價值遠勝雲端 Opus

給開發者：

你的 agent 工作流如果現在跑 Claude 順手，別被 benchmark 誘惑隨便換。切換成本通常被嚴重低估
同一個任務在兩個模型下寫完 prompt 後實測 20 次，看穩定度而非最高分。很多模型是「高峰很高、谷底很低」，Claude Opus 的優勢常常在「谷底也不差」
Qwen 3.6 Plus 拿來做成本敏感的批次任務（大量文件摘要、資料清洗、初步分類），Claude 留給真需要品質的場景——這個組合比單押一家便宜又穩

給內容觀察者：

請停止用「A 超越 B」這種懶人標題。benchmark 差 2 分跟差 20 分的意義完全不同，但媒體都寫成「追上」
更重要的問題不是「Qwen 追上 Claude 沒」，而是「開源頂標和閉源頂標之間的差距，會繼續縮小還是重新拉大」——這才是真正的產業問題

❓ FAQ

那我到底該不該從 Claude Opus 換成 Qwen 3.6？

問你自己三個問題：

你每月在 Claude 上花超過 $100 嗎？ 如果沒有，切換不划算，省下來的錢不如你測試的時間成本
你的任務有「錯一次就很痛」的 critical 成分嗎？ 例如法律合約、醫療建議、財務決策——這類情境 benchmark 差 2–5 分可能就是災難
你需要本地部署嗎？ 如果需要，Qwen 3.6-27B 是目前最強選項，Claude 沒得選

三題都偏 Qwen 就試；偏 Claude 就別動；混合就用 router 分流。

為什麼 benchmark 顯示 Qwen 編程小勝，但我實際用覺得 Claude 寫 code 更好？

你的體感很可能是對的。SWE-bench 測的是「能不能修好 GitHub issue」，和你實際寫 code 的感受不一樣：

Claude 寫 code 更傾向解釋為什麼這樣寫——這對學習、協作、維護有價值，但 benchmark 不給分
Claude 的錯誤更保守——它比較常說「這裡我不確定，建議你查一下」。Qwen 常常硬給答案，對了就對了、錯了就是幻覺
Claude 在理解模糊需求上更強——你講一半它會追問，Qwen 常常自己腦補完就跑

benchmark 只測「產出正確答案」，不測「產出過程的品質」。你的體感在感受後者。

LMSys Arena 為什麼不太受影響？

LMSys Arena 是人類盲測——兩個模型回答同一題，人類不知道哪個是哪個，選哪個更好。這個方法比較難被 benchmark 優化攻擊，因為題目是真實用戶提的、隨機的、每天都在變。

2026 年 4 月的 Arena 排名：Claude Opus 4.5/4.6 仍穩居前段，Qwen 3.6 Plus 有進入前 10 但不是頂。這個和 SWE-bench 等傳統 benchmark 的「接近」有差距——一種可能的解釋是：Qwen 確實在特定任務追上，但在「整體使用體感」這個模糊指標上還沒。

當然 Arena 也有偏誤——人類更偏好長答案、更偏好明確語氣。但它仍是目前最接近「真實使用」的公開指標。

如果半年後 Qwen 真的全面超越 Claude 呢？

可能性不低。開源追閉源的速度在加快——Llama 追 GPT-3.5 花了 18 個月，Qwen 追 Opus 只花了 12 個月。但即使能力全面超越，Claude 還有「生態」這道護城河：Projects、Artifacts、Claude Code、MCP 整合、企業安全認證、客戶支援。這些是模型能力之外的東西。

歷史類比：Linux 早就在很多技術指標上超越 Windows，但 Windows 仍有企業市場。能力贏 ≠ 市場贏。未來 12 個月我會繼續用 Claude 做主力，但混用 Qwen 做成本敏感任務——這個策略無論誰贏都不會出錯。

Sources: