🔥 Qwen3.6-35B-A3B 開源:35B 參數只用 3B 推理,SWE-bench 碾壓 Gemma 4

Q: Qwen3.6-35B-A3B 跟 Qwen3.6-Plus 有什麼不同？

**一個開源，一個閉源。** Qwen3.6-Plus 是阿里雲的商業 API（功能最強,1M context），你得付費用;Qwen3.6-35B-A3B 是開源版,Apache 2.0 授權，你可以下載回來自己跑，免費。能力上 Plus 版更強（特別是超長上下文和推理），但 35B-A3B 的性價比在開源界已經是頂級。

Q: 35B 參數只用 3B,品質真的不會掉嗎？

**MoE 的精髓就在這裡——不是「砍掉」其他 32B,而是「只叫最相關的專家來」。** 256 個專家裡，每次推理選 9 個最適合當前任務的。品質跟全部激活差距不大（SWE-bench 73.4 就是證明），但推理速度快得多、記憶體用量少得多。這跟量化壓縮不同——MoE 是架構設計層面的效率。

Q: Qwen3.6 跟 Gemma 4 哪個好？

**看用途。** 代碼修復和 Agent 任務：Qwen3.6 明顯勝出(SWE-bench 73.4 vs 52.0)。Google 生態整合 / Android 部署：Gemma 4 更適合。一般推理和多語言：兩者接近。兩個都是 Apache 2.0，可以並存使用——不需要二選一。深入了解 Gemma 4 看 [這篇](/insights/gemma-4-local-llm-revolution/)。

Q: RTX 4090 跑得動嗎？速度快嗎？

**跑得動，但別期待飛快。** Q4 量化版大約需要 20GB VRAM,RTX 4090(24GB)可以塞下。推理速度大約是每秒 8-15 tokens（依量化等級和 prompt 長度），比雲端 API 慢但可接受。Apple Silicon(M2 Ultra / M4 Max)的統一記憶體架構會更順,64GB 版本跑 Q4_K_M 很舒服。

Q: Qwen 有內容審查嗎？會影響使用嗎？

**有，但比 DeepSeek 輕。** Qwen 系列在涉及中國政治敏感話題（天安門事件、台灣獨立、新疆議題）時會有明顯的迴避或官方口徑回應。日常使用（寫程式、分析文件、一般問答）幾乎不受影響。如果你需要完全無審查，社群有發布 abliterated（去審查）版本，但穩定性尚未經充分驗證。

Q: 我現在用 Claude / ChatGPT,該換成 Qwen3.6 嗎？

**一般使用者不需要換;AI 開發者值得認真評估。** Claude / ChatGPT 的優勢是「即開即用、有 UI、生態完整」。Qwen3.6-35B-A3B 的優勢是「免費、可本地部署、代碼能力強、隱私可控」。如果你在做 [AI Agent](/tech/ai-agent/) 開發、需要本地推理、或成本敏感,Qwen3.6 是你現在最該測試的開源模型。

阿里巴巴 Qwen 團隊 2026/4/16 開源 Qwen3.6-35B-A3B——35B 總參數但每次推理只啟動 3B,SWE-bench 73.4 大勝 Gemma 4 的 52.0,還有原生多模態 + 100 萬 token context。完整解析架構、跑分、硬體需求、怎麼跑。

發布：2026-04-16

入門 Qwen Qwen3.6 開源

2026 年 4 月 16 日，阿里巴巴 Qwen 團隊開源了 Qwen3.6-35B-A3B——一個 35B 總參數但每次推理只啟動 3B 的 MoE 模型。 它在 SWE-bench Verified 拿下 73.4 分，大幅碾壓 Gemma 4 的 52.0，甚至逼近部分閉源模型的水準。更狠的是：Apache 2.0 授權、原生多模態、100 萬 token 上下文——而你的 RTX 4090 就跑得動。

🔑 5 個關鍵重點

35B 參數但只用 3B 推理——MoE 架構讓推理成本等同 3B 模型，卻有 35B 的知識量

SWE-bench Verified 73.4——開源模型代碼修復能力之冠，超越 Gemma 4 整整 21 分

Gated DeltaNet 線性注意力——3/4 的層用 O(n) 線性注意力，長 context 推理速度大幅提升

原生多模態 + 262K context（可擴 1M）——文字、圖片、文件截圖、影片都能處理

Apache 2.0,RTX 4090 可跑——Q4 量化約 20-25GB VRAM,消費級硬體就能本地部署

🏢 Qwen 是誰？3 分鐘搞懂背景

Qwen（通義千問）是阿里巴巴集團旗下的大語言模型團隊，也是目前中國開源 LLM 的實質領跑者。 從 2023 年的 Qwen-7B 開始，到 2025 年的 Qwen2.5 橫掃開源榜單，再到 2026 年初的 Qwen3 系列全面進化——Qwen 已經成為 Meta Llama 之外，開源社群最常拿來跑的「另一極」。

跟 DeepSeek 的區別:

DeepSeek 主打推理（數學、邏輯），在 AIME 等數學競賽跑分常居前列
Qwen 主打全面性——代碼、多語言、多模態、Agent 能力都要強，走「全能開源」路線
兩家都來自中國，都有政治議題內容過濾，但 Qwen 的審查程度普遍被認為比 DeepSeek 輕

Qwen3.6 系列有兩個版本:

	Qwen3.6-Plus	Qwen3.6-35B-A3B
發布日期	2026/4/2	2026/4/16（今天）
性質	閉源商業 API	開源,Apache 2.0
定位	最強旗艦,1M context	開源版，可本地部署
費用	API 付費	免費自架

本篇只談 Qwen3.6-35B-A3B（開源版），你可以下載回來自己跑的那個。

🧬 核心架構：Gated DeltaNet + 稀疏 MoE

Qwen3.6-35B-A3B 最大的技術突破不是「更大」，而是「用更少資源做更多事」。 它結合了兩個 2025-2026 年最熱的架構趨勢:

MoE(Mixture of Experts):35B 只用 3B

總參數 35B（350 億），裡面有 256 個「專家」
每次推理只啟動 8 個路由專家 + 1 個共享專家 = 9 個
實際激活參數約 3B（30 億）——只佔總量的 8.6%
結果：推理速度接近 3B 模型，但知識量接近 35B 模型

類比:把它想成一間有 256 個專家的醫院，每個病人只會被分配到 9 個最相關的專家看診。你不用付 256 個人的薪水，但每個病人都能得到專業的診斷。

Gated DeltaNet:線性注意力大幅省算力

傳統 Transformer 的注意力機制是 O(n²)——輸入越長，計算量「平方」成長。Qwen3.6 改成:

每 4 層為一組:3 層 Gated DeltaNet（線性 O(n）)+ 1 層傳統注意力(O(n²))
75% 的層都用線性注意力，只留 25% 的「精確注意力」給最需要的地方
結果：長上下文(100K+ tokens)時，推理速度比純 Transformer 快得多

白話說:傳統 Transformer 讀一本 10 萬字的書，每讀一頁都要回去翻前面所有頁確認;Gated DeltaNet 只在每 4 頁才回去翻一次，其他時候靠「摘要筆記」就夠用了。

📊 跑分比較：開源代碼修復之王

Agentic Coding（核心亮點）

Qwen3.6-35B-A3B 在代碼自動修復任務上，目前是同級開源模型中最強的。

測試	Qwen3.6-35B-A3B	Gemma 4-31B	Qwen3.5（前代）	Claude Sonnet 4.6（閉源）
SWE-bench Verified	73.4	52.0	69.2	79.6
SWE-bench Pro	49.5	35.7	—	—
SWE-bench 多語言	67.2	51.7	—	—
Terminal-Bench 2.0	51.5	42.9	40.5	—

重點解讀:SWE-bench 是讓 AI 自動修 GitHub issue 的測試——73.4 分表示 Qwen3.6 能成功修復 73.4% 的真實 bug。它比 Gemma 4 高了 21 分,比自己的前代高了 4 分,已經逼近 Claude Sonnet 4.6 的 79.6。

通用推理與多模態

測試	Qwen3.6-35B-A3B	說明
MMLU-Pro	85.2%	通用知識推理
MMMU（視覺推理）	81.7	看圖回答問題
OmniDocBench 1.5	89.9	文件截圖理解
VideoMMU	83.7	影片理解
RealWorldQA	85.3	真實世界視覺問答

⚠️ 跑分來自 Alibaba 官方發布，獨立第三方評測仍在進行中。 Qwen 系列的官方跑分與第三方實測有時存在落差，建議等 ArtificialAnalysis 等獨立平台確認後再做最終判斷。

⚡ 速度與成本：為什麼 MoE 是殺手鐧

35B 模型的能力,3B 模型的成本——這是 MoE 架構帶來的最直接好處。

API 定價（用雲端的話）

平台	輸入	輸出	備註
阿里雲 Bailian（官方）	¥2/百萬 token(~$0.28)	¥12/百萬 token(~$1.65)	最便宜
OpenRouter	~$0.16/百萬 token	~$1.30/百萬 token	國際用戶方便
自架（開源）	電費	電費	RTX 4090 可跑

對比閉源 API:

模型	輸出定價（每百萬 token）	相對成本
Qwen3.6-35B-A3B	~$1.65	1x（基準）
GPT-5.4	~$30	18x
Claude Sonnet 4.6	~$15	9x
MiniMax M2.7	~$1.10	0.7x

SWE-bench 73.4 的能力，只要 Claude 九分之一的成本——如果你是做 AI Agent 或自動化代碼修復的開發者，這個性價比很恐怖。

⚙️ 完整技術規格

總參數:35B（350 億）
每次推理激活參數:3B（30 億）
架構:Gated DeltaNet + 稀疏 MoE 混合
專家數量:256 個（每次啟動 8 路由 + 1 共享 = 9 個）
層數:40 層（每 4 層 = 3 層線性注意力 + 1 層傳統注意力）
原生 Context:262,144 tokens（約 26 萬）
擴展 Context:1,010,000 tokens（約 100 萬，透過 YaRN）
最大輸出:81,920 tokens
多模態:原生支援文字 + 視覺（圖片、文件截圖、影片）
思考模式:同一模型可切換 Thinking Mode（深度推理）/ Non-Thinking Mode（快速回應）
授權:Apache 2.0（可商用、可修改、可分發）

💻 硬體需求：你的電腦跑得動嗎？

Qwen3.6-35B-A3B 的量化版本可以在消費級 GPU 上運行——但「能跑」跟「跑得快」是兩回事。

量化等級	VRAM 需求	適合硬體	推理速度感受
FP16（全精度）	~70 GB	2× A100 80GB / H100	最佳品質
FP8	~35 GB	單張 H100	企業部署首選
Q4_K_M（推薦）	~24.6 GB	RTX 4090 24GB 勉強	品質/速度最佳平衡
Q4（較低精度）	~19.6 GB	RTX 3090 24GB	堪用但品質下降

消費級推薦配置:

Apple Silicon 最佳:Mac Studio M2 Ultra 64GB 或 MacBook Pro M4 Max 64GB——跑 Q4_K_M 綽綽有餘
NVIDIA 用戶:RTX 4090(24GB)跑 Q4 可以，跑 Q4_K_M 會卡 VRAM 上限
預算不夠:用雲端 API 或 Ollama 跑量化版試試

⚠️ Ollama 相容性問題:截至 2026/4/16,Qwen3.6 系列的 GGUF 版本在 Ollama 有 mmproj（視覺模組）的分離檔案問題，建議用 llama.cpp 後端、LM Studio、SGLang v0.5.10+ 或 vLLM v0.19+ 部署。

→ 更完整的本地部署知識請看開源與本地端 LLM 指南

🆚 2026 年開源模型大亂鬥：Qwen3.6 排第幾？

維度	Qwen3.6-35B-A3B	Gemma 4-31B	Llama 4 Scout	DeepSeek V3.2	Mistral Small 4
代碼修復（SWE-bench）	73.4	52.0	—	~65	—
AI Agent 適用度	⭐⭐⭐⭐⭐（Function Calling + 多步驟穩定）	⭐⭐⭐（基本可用）	⭐⭐⭐（工具呼叫有限）	⭐⭐⭐⭐（推理強但部署重）	⭐⭐⭐⭐（Function Calling 穩）
推理成本	極低（3B 激活）	中（31B 全激活）	低（17B 激活）	高（671B）	中（24B）
Context 長度	1M（擴展）	128K	10M	128K	128K
多模態	✅ 原生	✅ 原生	✅ 原生	❌ 純文字	✅ 原生
語言數	201	140	—	主要中英	主要歐語
授權	Apache 2.0	Apache 2.0	社群（MAU 限制）	MIT	Apache 2.0
消費級 VRAM	~24 GB（Q4）	~20 GB（Q4）	~28 GB（Q4）	不可能	~16 GB（Q4）

一句話定位:

代碼自動修復、AI Agent → Qwen3.6-35B-A3B（跑分最高）
Google 生態 / Android 部署 → Gemma 4
超長上下文（整個 codebase 一次餵） → Llama 4 Scout
數學 / 推理 → DeepSeek V3.2
歐洲合規 / GDPR → Mistral Small 4

🔍 開源模型 vs 雲端 AI API：差距到底多大？

這是讀者最常問的問題：「開源本地跑的模型，真的追得上 ChatGPT / Claude 嗎？」 答案是：看任務。有些場景已經追上甚至超越，有些場景差距仍然明顯。

按任務比較（2026 年 4 月現況）

任務類型	Qwen3.6-35B-A3B（開源）	Claude Sonnet 4.6（閉源）	GPT-5.4（閉源）	差距判斷
代碼修復（SWE-bench）	73.4	79.6	~75	🟡 接近（差 6 分）
AI Agent（多步驟任務）	⭐⭐⭐⭐（Function Calling 穩、成本低）	⭐⭐⭐⭐⭐（最穩、生態最好）	⭐⭐⭐⭐⭐（GPTs + Assistants API）	🟡 可用但生態差一截
通用推理（MMLU-Pro）	85.2	~90	~91	🟡 接近（差 5-6 分）
中文寫作品質	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	🟡 可用但不如 Claude
長文理解（200K+）	⭐⭐⭐⭐（262K 原生）	⭐⭐⭐⭐⭐（1M）	⭐⭐⭐⭐（128K）	🟢 已追上 GPT
多模態（圖片理解）	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	🟡 接近
創意寫作 / 文案	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	🔴 明顯落後
指令遵循 / 格式控制	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	🟡 接近
即時資訊 / 搜尋	❌ 不支援	❌ 不支援	✅（Browsing）	🔴 開源劣勢
隱私 / 離線可用	✅ 完全本地	❌ 需連網	❌ 需連網	🟢 開源獨佔優勢
成本（每百萬 output token）	~$1.65	~$15	~$30	🟢 開源碾壓

一句話總結差距

代碼 / 推理 / 文件分析：開源已經追到雲端 API 的 85-95%，日常夠用。 創意寫作 / 精緻指令遵循 / 生態整合：閉源仍然明顯領先，這是「最後一哩路」。 隱私 + 成本：開源完勝，而且不是一個量級。

💡 實務建議：大多數人的最佳策略不是「二選一」，而是混用——日常聊天、寫作用 ChatGPT 或 Claude；需要本地部署、成本敏感、或做 Agent 開發時切到 Qwen3.6。兩者並存不衝突。

🎯 我該用 Qwen3.6-35B-A3B 嗎？決策指南

💡 選擇建議

你在做 AI Agent / 自動化代碼修復 → 強烈推薦，這是它最強的場景

你需要本地跑一個強大的多模態模型 → 推薦，有 RTX 4090 或 Apple Silicon 就能跑

你是中文使用者 → Qwen 的中文能力在開源模型中一直很強

你需要做客服 / 聊天 / 寫作 → 不一定需要 Qwen3.6，用 ChatGPT 或 Claude 更方便

你在意政治議題回答的中立性 → Qwen 有內容過濾（比 DeepSeek 輕，但仍存在）

⚠️ 不建議的場景:

對敏感話題（台灣政治、天安門）需要無審查回答 → 社群有「abliterated」去審查版，但穩定性未經充分驗證

VRAM < 16GB → 跑不動，用雲端 API 更實際

只需要簡單對話 → 殺雞焉用牛刀,Gemma 4 的 E4B 或 Phi-4 更適合

⚠️ 跑分亮眼，但要帶著意識看

每次有中國開源模型發布，社群都會有一波「跑分到底可不可信」的討論——Qwen3.6 也不例外。

你該知道的 3 件事:

疑慮	事實	建議
官方跑分可能偏高	Qwen 系列的官方 benchmark 與獨立評測（如 ArtificialAnalysis）有時存在 3-5% 落差	等獨立評測出來再做重大決策
SWE-bench 不代表所有能力	SWE-bench 測的是「自動修 GitHub issue」，不代表聊天、寫作、創意也同樣強	看你的使用場景，不要只看一個數字
Qwen3.6 發布不到 24 小時	本文撰寫時(2026/4/16)這是剛發布的模型，社群實測報告極少	持續追蹤 Reddit r/LocalLLaMA、Hugging Face 討論區

我的態度:跑分很亮眼，架構上也確實有創新（Gated DeltaNet + MoE 的結合）。但以經驗來看，任何模型的真實能力都要等社群跑過一兩週，用不同的 prompt、不同的任務測完才能定論。現在可以下載試玩，但不要急著把生產環境從 Claude / GPT 換過來。

❓ FAQ

Qwen3.6-35B-A3B 跟 Qwen3.6-Plus 有什麼不同？

一個開源，一個閉源。 Qwen3.6-Plus 是阿里雲的商業 API（功能最強,1M context），你得付費用;Qwen3.6-35B-A3B 是開源版,Apache 2.0 授權，你可以下載回來自己跑，免費。能力上 Plus 版更強（特別是超長上下文和推理），但 35B-A3B 的性價比在開源界已經是頂級。

35B 參數只用 3B,品質真的不會掉嗎？

MoE 的精髓就在這裡——不是「砍掉」其他 32B,而是「只叫最相關的專家來」。 256 個專家裡，每次推理選 9 個最適合當前任務的。品質跟全部激活差距不大（SWE-bench 73.4 就是證明），但推理速度快得多、記憶體用量少得多。這跟量化壓縮不同——MoE 是架構設計層面的效率。

Qwen3.6 跟 Gemma 4 哪個好？

看用途。 代碼修復和 Agent 任務：Qwen3.6 明顯勝出(SWE-bench 73.4 vs 52.0)。Google 生態整合 / Android 部署：Gemma 4 更適合。一般推理和多語言：兩者接近。兩個都是 Apache 2.0，可以並存使用——不需要二選一。深入了解 Gemma 4 看這篇。

RTX 4090 跑得動嗎？速度快嗎？

跑得動，但別期待飛快。 Q4 量化版大約需要 20GB VRAM,RTX 4090(24GB)可以塞下。推理速度大約是每秒 8-15 tokens（依量化等級和 prompt 長度），比雲端 API 慢但可接受。Apple Silicon(M2 Ultra / M4 Max)的統一記憶體架構會更順,64GB 版本跑 Q4_K_M 很舒服。

Qwen 有內容審查嗎？會影響使用嗎？

有，但比 DeepSeek 輕。 Qwen 系列在涉及中國政治敏感話題（天安門事件、台灣獨立、新疆議題）時會有明顯的迴避或官方口徑回應。日常使用（寫程式、分析文件、一般問答）幾乎不受影響。如果你需要完全無審查，社群有發布 abliterated（去審查）版本，但穩定性尚未經充分驗證。

我現在用 Claude / ChatGPT,該換成 Qwen3.6 嗎？

一般使用者不需要換;AI 開發者值得認真評估。 Claude / ChatGPT 的優勢是「即開即用、有 UI、生態完整」。Qwen3.6-35B-A3B 的優勢是「免費、可本地部署、代碼能力強、隱私可控」。如果你在做 AI Agent 開發、需要本地推理、或成本敏感,Qwen3.6 是你現在最該測試的開源模型。

📌 一句話總結

Qwen3.6-35B-A3B 用「35B 的腦但 3B 的飯量」刷新了開源代碼修復的天花板。 它不會取代 Claude 或 ChatGPT 的日常聊天地位，但對 AI Agent 開發者、本地部署愛好者、和成本敏感的企業來說，這是 2026 年 4 月最不能忽略的開源發布。等一兩週的社群實測報告出來後，再決定要不要正式上線——但現在就該開始試了。

→ 想看更多開源模型的定位:開源與本地端 LLM 指南 → Gemma 4 的深度解析:Google Gemma 4 正式發布 → MiniMax M2.7 的「自我進化」:MiniMax M2.7 開源 → 用 Qwen 做 Agent:AI Agent 完全指南