2026 年 4 月 16 日,阿里巴巴 Qwen 團隊開源了 Qwen3.6-35B-A3B——一個 35B 總參數但每次推理只啟動 3B 的 MoE 模型。 它在 SWE-bench Verified 拿下 73.4 分,大幅碾壓 Gemma 4 的 52.0,甚至逼近部分閉源模型的水準。更狠的是:Apache 2.0 授權、原生多模態、100 萬 token 上下文——而你的 RTX 4090 就跑得動。
🔑 5 個關鍵重點
- 35B 參數但只用 3B 推理——MoE 架構讓推理成本等同 3B 模型,卻有 35B 的知識量
- SWE-bench Verified 73.4——開源模型代碼修復能力之冠,超越 Gemma 4 整整 21 分
- Gated DeltaNet 線性注意力——3/4 的層用 O(n) 線性注意力,長 context 推理速度大幅提升
- 原生多模態 + 262K context(可擴 1M)——文字、圖片、文件截圖、影片都能處理
- Apache 2.0,RTX 4090 可跑——Q4 量化約 20-25GB VRAM,消費級硬體就能本地部署
🏢 Qwen 是誰?3 分鐘搞懂背景
Qwen(通義千問)是阿里巴巴集團旗下的大語言模型團隊,也是目前中國開源 LLM 的實質領跑者。 從 2023 年的 Qwen-7B 開始,到 2025 年的 Qwen2.5 橫掃開源榜單,再到 2026 年初的 Qwen3 系列全面進化——Qwen 已經成為 Meta Llama 之外,開源社群最常拿來跑的「另一極」。
跟 DeepSeek 的區別:
- DeepSeek 主打推理(數學、邏輯),在 AIME 等數學競賽跑分常居前列
- Qwen 主打全面性——代碼、多語言、多模態、Agent 能力都要強,走「全能開源」路線
- 兩家都來自中國,都有政治議題內容過濾,但 Qwen 的審查程度普遍被認為比 DeepSeek 輕
Qwen3.6 系列有兩個版本:
| Qwen3.6-Plus | Qwen3.6-35B-A3B | |
|---|---|---|
| 發布日期 | 2026/4/2 | 2026/4/16(今天) |
| 性質 | 閉源商業 API | 開源,Apache 2.0 |
| 定位 | 最強旗艦,1M context | 開源版,可本地部署 |
| 費用 | API 付費 | 免費自架 |
本篇只談 Qwen3.6-35B-A3B(開源版),你可以下載回來自己跑的那個。
🧬 核心架構:Gated DeltaNet + 稀疏 MoE
Qwen3.6-35B-A3B 最大的技術突破不是「更大」,而是「用更少資源做更多事」。 它結合了兩個 2025-2026 年最熱的架構趨勢:
MoE(Mixture of Experts):35B 只用 3B
- 總參數 35B(350 億),裡面有 256 個「專家」
- 每次推理只啟動 8 個路由專家 + 1 個共享專家 = 9 個
- 實際激活參數約 3B(30 億)——只佔總量的 8.6%
- 結果:推理速度接近 3B 模型,但知識量接近 35B 模型
類比:把它想成一間有 256 個專家的醫院,每個病人只會被分配到 9 個最相關的專家看診。你不用付 256 個人的薪水,但每個病人都能得到專業的診斷。
Gated DeltaNet:線性注意力大幅省算力
傳統 Transformer 的注意力機制是 O(n²)——輸入越長,計算量「平方」成長。Qwen3.6 改成:
- 每 4 層為一組:3 層 Gated DeltaNet(線性 O(n))+ 1 層傳統注意力(O(n²))
- 75% 的層都用線性注意力,只留 25% 的「精確注意力」給最需要的地方
- 結果:長上下文(100K+ tokens)時,推理速度比純 Transformer 快得多
白話說:傳統 Transformer 讀一本 10 萬字的書,每讀一頁都要回去翻前面所有頁確認;Gated DeltaNet 只在每 4 頁才回去翻一次,其他時候靠「摘要筆記」就夠用了。
📊 跑分比較:開源代碼修復之王
Agentic Coding(核心亮點)
Qwen3.6-35B-A3B 在代碼自動修復任務上,目前是同級開源模型中最強的。
| 測試 | Qwen3.6-35B-A3B | Gemma 4-31B | Qwen3.5(前代) | Claude Sonnet 4.6(閉源) |
|---|---|---|---|---|
| SWE-bench Verified | 73.4 | 52.0 | 69.2 | 79.6 |
| SWE-bench Pro | 49.5 | 35.7 | — | — |
| SWE-bench 多語言 | 67.2 | 51.7 | — | — |
| Terminal-Bench 2.0 | 51.5 | 42.9 | 40.5 | — |
重點解讀:SWE-bench 是讓 AI 自動修 GitHub issue 的測試——73.4 分表示 Qwen3.6 能成功修復 73.4% 的真實 bug。它比 Gemma 4 高了 21 分,比自己的前代高了 4 分,已經逼近 Claude Sonnet 4.6 的 79.6。
通用推理與多模態
| 測試 | Qwen3.6-35B-A3B | 說明 |
|---|---|---|
| MMLU-Pro | 85.2% | 通用知識推理 |
| MMMU(視覺推理) | 81.7 | 看圖回答問題 |
| OmniDocBench 1.5 | 89.9 | 文件截圖理解 |
| VideoMMU | 83.7 | 影片理解 |
| RealWorldQA | 85.3 | 真實世界視覺問答 |
⚠️ 跑分來自 Alibaba 官方發布,獨立第三方評測仍在進行中。 Qwen 系列的官方跑分與第三方實測有時存在落差,建議等 ArtificialAnalysis 等獨立平台確認後再做最終判斷。
⚡ 速度與成本:為什麼 MoE 是殺手鐧
35B 模型的能力,3B 模型的成本——這是 MoE 架構帶來的最直接好處。
API 定價(用雲端的話)
| 平台 | 輸入 | 輸出 | 備註 |
|---|---|---|---|
| 阿里雲 Bailian(官方) | ¥2/百萬 token(~$0.28) | ¥12/百萬 token(~$1.65) | 最便宜 |
| OpenRouter | ~$0.16/百萬 token | ~$1.30/百萬 token | 國際用戶方便 |
| 自架(開源) | 電費 | 電費 | RTX 4090 可跑 |
對比閉源 API:
| 模型 | 輸出定價(每百萬 token) | 相對成本 |
|---|---|---|
| Qwen3.6-35B-A3B | ~$1.65 | 1x(基準) |
| GPT-5.4 | ~$30 | 18x |
| Claude Sonnet 4.6 | ~$15 | 9x |
| MiniMax M2.7 | ~$1.10 | 0.7x |
SWE-bench 73.4 的能力,只要 Claude 九分之一的成本——如果你是做 AI Agent 或自動化代碼修復的開發者,這個性價比很恐怖。
⚙️ 完整技術規格
- 總參數:35B(350 億)
- 每次推理激活參數:3B(30 億)
- 架構:Gated DeltaNet + 稀疏 MoE 混合
- 專家數量:256 個(每次啟動 8 路由 + 1 共享 = 9 個)
- 層數:40 層(每 4 層 = 3 層線性注意力 + 1 層傳統注意力)
- 原生 Context:262,144 tokens(約 26 萬)
- 擴展 Context:1,010,000 tokens(約 100 萬,透過 YaRN)
- 最大輸出:81,920 tokens
- 多模態:原生支援文字 + 視覺(圖片、文件截圖、影片)
- 思考模式:同一模型可切換 Thinking Mode(深度推理)/ Non-Thinking Mode(快速回應)
- 授權:Apache 2.0(可商用、可修改、可分發)
💻 硬體需求:你的電腦跑得動嗎?
Qwen3.6-35B-A3B 的量化版本可以在消費級 GPU 上運行——但「能跑」跟「跑得快」是兩回事。
| 量化等級 | VRAM 需求 | 適合硬體 | 推理速度感受 |
|---|---|---|---|
| FP16(全精度) | ~70 GB | 2× A100 80GB / H100 | 最佳品質 |
| FP8 | ~35 GB | 單張 H100 | 企業部署首選 |
| Q4_K_M(推薦) | ~24.6 GB | RTX 4090 24GB 勉強 | 品質/速度最佳平衡 |
| Q4(較低精度) | ~19.6 GB | RTX 3090 24GB | 堪用但品質下降 |
消費級推薦配置:
- Apple Silicon 最佳:Mac Studio M2 Ultra 64GB 或 MacBook Pro M4 Max 64GB——跑 Q4_K_M 綽綽有餘
- NVIDIA 用戶:RTX 4090(24GB)跑 Q4 可以,跑 Q4_K_M 會卡 VRAM 上限
- 預算不夠:用雲端 API 或 Ollama 跑量化版試試
⚠️ Ollama 相容性問題:截至 2026/4/16,Qwen3.6 系列的 GGUF 版本在 Ollama 有 mmproj(視覺模組)的分離檔案問題,建議用 llama.cpp 後端、LM Studio、SGLang v0.5.10+ 或 vLLM v0.19+ 部署。
→ 更完整的本地部署知識請看 開源與本地端 LLM 指南
🆚 2026 年開源模型大亂鬥:Qwen3.6 排第幾?
| 維度 | Qwen3.6-35B-A3B | Gemma 4-31B | Llama 4 Scout | DeepSeek V3.2 | Mistral Small 4 |
|---|---|---|---|---|---|
| 代碼修復(SWE-bench) | 73.4 | 52.0 | — | ~65 | — |
| AI Agent 適用度 | ⭐⭐⭐⭐⭐(Function Calling + 多步驟穩定) | ⭐⭐⭐(基本可用) | ⭐⭐⭐(工具呼叫有限) | ⭐⭐⭐⭐(推理強但部署重) | ⭐⭐⭐⭐(Function Calling 穩) |
| 推理成本 | 極低(3B 激活) | 中(31B 全激活) | 低(17B 激活) | 高(671B) | 中(24B) |
| Context 長度 | 1M(擴展) | 128K | 10M | 128K | 128K |
| 多模態 | ✅ 原生 | ✅ 原生 | ✅ 原生 | ❌ 純文字 | ✅ 原生 |
| 語言數 | 201 | 140 | — | 主要中英 | 主要歐語 |
| 授權 | Apache 2.0 | Apache 2.0 | 社群(MAU 限制) | MIT | Apache 2.0 |
| 消費級 VRAM | ~24 GB(Q4) | ~20 GB(Q4) | ~28 GB(Q4) | 不可能 | ~16 GB(Q4) |
一句話定位:
- 代碼自動修復、AI Agent → Qwen3.6-35B-A3B(跑分最高)
- Google 生態 / Android 部署 → Gemma 4
- 超長上下文(整個 codebase 一次餵) → Llama 4 Scout
- 數學 / 推理 → DeepSeek V3.2
- 歐洲合規 / GDPR → Mistral Small 4
🔍 開源模型 vs 雲端 AI API:差距到底多大?
這是讀者最常問的問題:「開源本地跑的模型,真的追得上 ChatGPT / Claude 嗎?」 答案是:看任務。有些場景已經追上甚至超越,有些場景差距仍然明顯。
按任務比較(2026 年 4 月現況)
| 任務類型 | Qwen3.6-35B-A3B(開源) | Claude Sonnet 4.6(閉源) | GPT-5.4(閉源) | 差距判斷 |
|---|---|---|---|---|
| 代碼修復(SWE-bench) | 73.4 | 79.6 | ~75 | 🟡 接近(差 6 分) |
| AI Agent(多步驟任務) | ⭐⭐⭐⭐(Function Calling 穩、成本低) | ⭐⭐⭐⭐⭐(最穩、生態最好) | ⭐⭐⭐⭐⭐(GPTs + Assistants API) | 🟡 可用但生態差一截 |
| 通用推理(MMLU-Pro) | 85.2 | ~90 | ~91 | 🟡 接近(差 5-6 分) |
| 中文寫作品質 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 🟡 可用但不如 Claude |
| 長文理解(200K+) | ⭐⭐⭐⭐(262K 原生) | ⭐⭐⭐⭐⭐(1M) | ⭐⭐⭐⭐(128K) | 🟢 已追上 GPT |
| 多模態(圖片理解) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 🟡 接近 |
| 創意寫作 / 文案 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 🔴 明顯落後 |
| 指令遵循 / 格式控制 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 🟡 接近 |
| 即時資訊 / 搜尋 | ❌ 不支援 | ❌ 不支援 | ✅(Browsing) | 🔴 開源劣勢 |
| 隱私 / 離線可用 | ✅ 完全本地 | ❌ 需連網 | ❌ 需連網 | 🟢 開源獨佔優勢 |
| 成本(每百萬 output token) | ~$1.65 | ~$15 | ~$30 | 🟢 開源碾壓 |
一句話總結差距
代碼 / 推理 / 文件分析:開源已經追到雲端 API 的 85-95%,日常夠用。 創意寫作 / 精緻指令遵循 / 生態整合:閉源仍然明顯領先,這是「最後一哩路」。 隱私 + 成本:開源完勝,而且不是一個量級。
💡 實務建議:大多數人的最佳策略不是「二選一」,而是混用——日常聊天、寫作用 ChatGPT 或 Claude;需要本地部署、成本敏感、或做 Agent 開發時切到 Qwen3.6。兩者並存不衝突。
🎯 我該用 Qwen3.6-35B-A3B 嗎?決策指南
💡 選擇建議
⚠️ 不建議的場景:
- 對敏感話題(台灣政治、天安門)需要無審查回答 → 社群有「abliterated」去審查版,但穩定性未經充分驗證
- VRAM < 16GB → 跑不動,用雲端 API 更實際
- 只需要簡單對話 → 殺雞焉用牛刀,Gemma 4 的 E4B 或 Phi-4 更適合
⚠️ 跑分亮眼,但要帶著意識看
每次有中國開源模型發布,社群都會有一波「跑分到底可不可信」的討論——Qwen3.6 也不例外。
你該知道的 3 件事:
| 疑慮 | 事實 | 建議 |
|---|---|---|
| 官方跑分可能偏高 | Qwen 系列的官方 benchmark 與獨立評測(如 ArtificialAnalysis)有時存在 3-5% 落差 | 等獨立評測出來再做重大決策 |
| SWE-bench 不代表所有能力 | SWE-bench 測的是「自動修 GitHub issue」,不代表聊天、寫作、創意也同樣強 | 看你的使用場景,不要只看一個數字 |
| Qwen3.6 發布不到 24 小時 | 本文撰寫時(2026/4/16)這是剛發布的模型,社群實測報告極少 | 持續追蹤 Reddit r/LocalLLaMA、Hugging Face 討論區 |
我的態度:跑分很亮眼,架構上也確實有創新(Gated DeltaNet + MoE 的結合)。但以經驗來看,任何模型的真實能力都要等社群跑過一兩週,用不同的 prompt、不同的任務測完才能定論。現在可以下載試玩,但不要急著把生產環境從 Claude / GPT 換過來。
❓ FAQ
Qwen3.6-35B-A3B 跟 Qwen3.6-Plus 有什麼不同?
一個開源,一個閉源。 Qwen3.6-Plus 是阿里雲的商業 API(功能最強,1M context),你得付費用;Qwen3.6-35B-A3B 是開源版,Apache 2.0 授權,你可以下載回來自己跑,免費。能力上 Plus 版更強(特別是超長上下文和推理),但 35B-A3B 的性價比在開源界已經是頂級。
35B 參數只用 3B,品質真的不會掉嗎?
MoE 的精髓就在這裡——不是「砍掉」其他 32B,而是「只叫最相關的專家來」。 256 個專家裡,每次推理選 9 個最適合當前任務的。品質跟全部激活差距不大(SWE-bench 73.4 就是證明),但推理速度快得多、記憶體用量少得多。這跟量化壓縮不同——MoE 是架構設計層面的效率。
Qwen3.6 跟 Gemma 4 哪個好?
看用途。 代碼修復和 Agent 任務:Qwen3.6 明顯勝出(SWE-bench 73.4 vs 52.0)。Google 生態整合 / Android 部署:Gemma 4 更適合。一般推理和多語言:兩者接近。兩個都是 Apache 2.0,可以並存使用——不需要二選一。深入了解 Gemma 4 看 這篇。
RTX 4090 跑得動嗎?速度快嗎?
跑得動,但別期待飛快。 Q4 量化版大約需要 20GB VRAM,RTX 4090(24GB)可以塞下。推理速度大約是每秒 8-15 tokens(依量化等級和 prompt 長度),比雲端 API 慢但可接受。Apple Silicon(M2 Ultra / M4 Max)的統一記憶體架構會更順,64GB 版本跑 Q4_K_M 很舒服。
Qwen 有內容審查嗎?會影響使用嗎?
有,但比 DeepSeek 輕。 Qwen 系列在涉及中國政治敏感話題(天安門事件、台灣獨立、新疆議題)時會有明顯的迴避或官方口徑回應。日常使用(寫程式、分析文件、一般問答)幾乎不受影響。如果你需要完全無審查,社群有發布 abliterated(去審查)版本,但穩定性尚未經充分驗證。
我現在用 Claude / ChatGPT,該換成 Qwen3.6 嗎?
一般使用者不需要換;AI 開發者值得認真評估。 Claude / ChatGPT 的優勢是「即開即用、有 UI、生態完整」。Qwen3.6-35B-A3B 的優勢是「免費、可本地部署、代碼能力強、隱私可控」。如果你在做 AI Agent 開發、需要本地推理、或成本敏感,Qwen3.6 是你現在最該測試的開源模型。
📌 一句話總結
Qwen3.6-35B-A3B 用「35B 的腦但 3B 的飯量」刷新了開源代碼修復的天花板。 它不會取代 Claude 或 ChatGPT 的日常聊天地位,但對 AI Agent 開發者、本地部署愛好者、和成本敏感的企業來說,這是 2026 年 4 月最不能忽略的開源發布。等一兩週的社群實測報告出來後,再決定要不要正式上線——但現在就該開始試了。
→ 想看更多開源模型的定位:開源與本地端 LLM 指南 → Gemma 4 的深度解析:Google Gemma 4 正式發布 → MiniMax M2.7 的「自我進化」:MiniMax M2.7 開源 → 用 Qwen 做 Agent:AI Agent 完全指南