回到頂部

🔥 Qwen3.6-35B-A3B 開源:35B 參數只用 3B 推理,SWE-bench 碾壓 Gemma 4

阿里巴巴 Qwen 團隊 2026/4/16 開源 Qwen3.6-35B-A3B——35B 總參數但每次推理只啟動 3B,SWE-bench 73.4 大勝 Gemma 4 的 52.0,還有原生多模態 + 100 萬 token context。完整解析架構、跑分、硬體需求、怎麼跑。

Qwen3.6-35B-A3B 開源模型:35B 參數 3B 推理,SWE-bench 73.4,Gated DeltaNet 架構

2026 年 4 月 16 日,阿里巴巴 Qwen 團隊開源了 Qwen3.6-35B-A3B——一個 35B 總參數但每次推理只啟動 3B 的 MoE 模型。 它在 SWE-bench Verified 拿下 73.4 分,大幅碾壓 Gemma 4 的 52.0,甚至逼近部分閉源模型的水準。更狠的是:Apache 2.0 授權、原生多模態、100 萬 token 上下文——而你的 RTX 4090 就跑得動。

🔑 5 個關鍵重點

  1. 35B 參數但只用 3B 推理——MoE 架構讓推理成本等同 3B 模型,卻有 35B 的知識量
  2. SWE-bench Verified 73.4——開源模型代碼修復能力之冠,超越 Gemma 4 整整 21 分
  3. Gated DeltaNet 線性注意力——3/4 的層用 O(n) 線性注意力,長 context 推理速度大幅提升
  4. 原生多模態 + 262K context(可擴 1M)——文字、圖片、文件截圖、影片都能處理
  5. Apache 2.0,RTX 4090 可跑——Q4 量化約 20-25GB VRAM,消費級硬體就能本地部署

🏢 Qwen 是誰?3 分鐘搞懂背景

Qwen(通義千問)是阿里巴巴集團旗下的大語言模型團隊,也是目前中國開源 LLM 的實質領跑者。 從 2023 年的 Qwen-7B 開始,到 2025 年的 Qwen2.5 橫掃開源榜單,再到 2026 年初的 Qwen3 系列全面進化——Qwen 已經成為 Meta Llama 之外,開源社群最常拿來跑的「另一極」。

DeepSeek 的區別:

  • DeepSeek 主打推理(數學、邏輯),在 AIME 等數學競賽跑分常居前列
  • Qwen 主打全面性——代碼、多語言、多模態、Agent 能力都要強,走「全能開源」路線
  • 兩家都來自中國,都有政治議題內容過濾,但 Qwen 的審查程度普遍被認為比 DeepSeek 輕

Qwen3.6 系列有兩個版本:

Qwen3.6-PlusQwen3.6-35B-A3B
發布日期2026/4/22026/4/16(今天)
性質閉源商業 API開源,Apache 2.0
定位最強旗艦,1M context開源版,可本地部署
費用API 付費免費自架

本篇只談 Qwen3.6-35B-A3B(開源版),你可以下載回來自己跑的那個。


🧬 核心架構:Gated DeltaNet + 稀疏 MoE

Qwen3.6-35B-A3B 最大的技術突破不是「更大」,而是「用更少資源做更多事」。 它結合了兩個 2025-2026 年最熱的架構趨勢:

MoE(Mixture of Experts):35B 只用 3B

  • 總參數 35B(350 億),裡面有 256 個「專家」
  • 每次推理只啟動 8 個路由專家 + 1 個共享專家 = 9 個
  • 實際激活參數約 3B(30 億)——只佔總量的 8.6%
  • 結果:推理速度接近 3B 模型,但知識量接近 35B 模型

類比:把它想成一間有 256 個專家的醫院,每個病人只會被分配到 9 個最相關的專家看診。你不用付 256 個人的薪水,但每個病人都能得到專業的診斷。

Gated DeltaNet:線性注意力大幅省算力

傳統 Transformer 的注意力機制是 O(n²)——輸入越長,計算量「平方」成長。Qwen3.6 改成:

  • 每 4 層為一組:3 層 Gated DeltaNet(線性 O(n))+ 1 層傳統注意力(O(n²))
  • 75% 的層都用線性注意力,只留 25% 的「精確注意力」給最需要的地方
  • 結果:長上下文(100K+ tokens)時,推理速度比純 Transformer 快得多

白話說:傳統 Transformer 讀一本 10 萬字的書,每讀一頁都要回去翻前面所有頁確認;Gated DeltaNet 只在每 4 頁才回去翻一次,其他時候靠「摘要筆記」就夠用了。


📊 跑分比較:開源代碼修復之王

Agentic Coding(核心亮點)

Qwen3.6-35B-A3B 在代碼自動修復任務上,目前是同級開源模型中最強的。

測試Qwen3.6-35B-A3BGemma 4-31BQwen3.5(前代)Claude Sonnet 4.6(閉源)
SWE-bench Verified73.452.069.279.6
SWE-bench Pro49.535.7
SWE-bench 多語言67.251.7
Terminal-Bench 2.051.542.940.5

重點解讀:SWE-bench 是讓 AI 自動修 GitHub issue 的測試——73.4 分表示 Qwen3.6 能成功修復 73.4% 的真實 bug。它比 Gemma 4 高了 21 分,比自己的前代高了 4 分,已經逼近 Claude Sonnet 4.6 的 79.6。

通用推理與多模態

測試Qwen3.6-35B-A3B說明
MMLU-Pro85.2%通用知識推理
MMMU(視覺推理)81.7看圖回答問題
OmniDocBench 1.589.9文件截圖理解
VideoMMU83.7影片理解
RealWorldQA85.3真實世界視覺問答

⚠️ 跑分來自 Alibaba 官方發布,獨立第三方評測仍在進行中。 Qwen 系列的官方跑分與第三方實測有時存在落差,建議等 ArtificialAnalysis 等獨立平台確認後再做最終判斷。


⚡ 速度與成本:為什麼 MoE 是殺手鐧

35B 模型的能力,3B 模型的成本——這是 MoE 架構帶來的最直接好處。

API 定價(用雲端的話)

平台輸入輸出備註
阿里雲 Bailian(官方)¥2/百萬 token(~$0.28)¥12/百萬 token(~$1.65)最便宜
OpenRouter~$0.16/百萬 token~$1.30/百萬 token國際用戶方便
自架(開源)電費電費RTX 4090 可跑

對比閉源 API:

模型輸出定價(每百萬 token)相對成本
Qwen3.6-35B-A3B~$1.651x(基準)
GPT-5.4~$3018x
Claude Sonnet 4.6~$159x
MiniMax M2.7~$1.100.7x

SWE-bench 73.4 的能力,只要 Claude 九分之一的成本——如果你是做 AI Agent 或自動化代碼修復的開發者,這個性價比很恐怖。


⚙️ 完整技術規格

  • 總參數:35B(350 億)
  • 每次推理激活參數:3B(30 億)
  • 架構:Gated DeltaNet + 稀疏 MoE 混合
  • 專家數量:256 個(每次啟動 8 路由 + 1 共享 = 9 個)
  • 層數:40 層(每 4 層 = 3 層線性注意力 + 1 層傳統注意力)
  • 原生 Context:262,144 tokens(約 26 萬)
  • 擴展 Context:1,010,000 tokens(約 100 萬,透過 YaRN)
  • 最大輸出:81,920 tokens
  • 多模態:原生支援文字 + 視覺(圖片、文件截圖、影片)
  • 思考模式:同一模型可切換 Thinking Mode(深度推理)/ Non-Thinking Mode(快速回應)
  • 授權:Apache 2.0(可商用、可修改、可分發)

💻 硬體需求:你的電腦跑得動嗎?

Qwen3.6-35B-A3B 的量化版本可以在消費級 GPU 上運行——但「能跑」跟「跑得快」是兩回事。

量化等級VRAM 需求適合硬體推理速度感受
FP16(全精度)~70 GB2× A100 80GB / H100最佳品質
FP8~35 GB單張 H100企業部署首選
Q4_K_M(推薦)~24.6 GBRTX 4090 24GB 勉強品質/速度最佳平衡
Q4(較低精度)~19.6 GBRTX 3090 24GB堪用但品質下降

消費級推薦配置:

  • Apple Silicon 最佳:Mac Studio M2 Ultra 64GB 或 MacBook Pro M4 Max 64GB——跑 Q4_K_M 綽綽有餘
  • NVIDIA 用戶:RTX 4090(24GB)跑 Q4 可以,跑 Q4_K_M 會卡 VRAM 上限
  • 預算不夠:用雲端 API 或 Ollama 跑量化版試試

⚠️ Ollama 相容性問題:截至 2026/4/16,Qwen3.6 系列的 GGUF 版本在 Ollama 有 mmproj(視覺模組)的分離檔案問題,建議用 llama.cpp 後端、LM StudioSGLang v0.5.10+vLLM v0.19+ 部署。

→ 更完整的本地部署知識請看 開源與本地端 LLM 指南


🆚 2026 年開源模型大亂鬥:Qwen3.6 排第幾?

維度Qwen3.6-35B-A3BGemma 4-31BLlama 4 ScoutDeepSeek V3.2Mistral Small 4
代碼修復(SWE-bench)73.452.0~65
AI Agent 適用度⭐⭐⭐⭐⭐(Function Calling + 多步驟穩定)⭐⭐⭐(基本可用)⭐⭐⭐(工具呼叫有限)⭐⭐⭐⭐(推理強但部署重)⭐⭐⭐⭐(Function Calling 穩)
推理成本極低(3B 激活)中(31B 全激活)低(17B 激活)高(671B)中(24B)
Context 長度1M(擴展)128K10M128K128K
多模態✅ 原生✅ 原生✅ 原生❌ 純文字✅ 原生
語言數201140主要中英主要歐語
授權Apache 2.0Apache 2.0社群(MAU 限制)MITApache 2.0
消費級 VRAM~24 GB(Q4)~20 GB(Q4)~28 GB(Q4)不可能~16 GB(Q4)

一句話定位:

  • 代碼自動修復、AI Agent → Qwen3.6-35B-A3B(跑分最高)
  • Google 生態 / Android 部署Gemma 4
  • 超長上下文(整個 codebase 一次餵) → Llama 4 Scout
  • 數學 / 推理 → DeepSeek V3.2
  • 歐洲合規 / GDPR → Mistral Small 4

🔍 開源模型 vs 雲端 AI API:差距到底多大?

這是讀者最常問的問題:「開源本地跑的模型,真的追得上 ChatGPT / Claude 嗎?」 答案是:看任務。有些場景已經追上甚至超越,有些場景差距仍然明顯。

按任務比較(2026 年 4 月現況)

任務類型Qwen3.6-35B-A3B(開源)Claude Sonnet 4.6(閉源)GPT-5.4(閉源)差距判斷
代碼修復(SWE-bench)73.479.6~75🟡 接近(差 6 分)
AI Agent(多步驟任務)⭐⭐⭐⭐(Function Calling 穩、成本低)⭐⭐⭐⭐⭐(最穩、生態最好)⭐⭐⭐⭐⭐(GPTs + Assistants API)🟡 可用但生態差一截
通用推理(MMLU-Pro)85.2~90~91🟡 接近(差 5-6 分)
中文寫作品質⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐🟡 可用但不如 Claude
長文理解(200K+)⭐⭐⭐⭐(262K 原生)⭐⭐⭐⭐⭐(1M)⭐⭐⭐⭐(128K)🟢 已追上 GPT
多模態(圖片理解)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐🟡 接近
創意寫作 / 文案⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐🔴 明顯落後
指令遵循 / 格式控制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐🟡 接近
即時資訊 / 搜尋❌ 不支援❌ 不支援✅(Browsing)🔴 開源劣勢
隱私 / 離線可用✅ 完全本地❌ 需連網❌ 需連網🟢 開源獨佔優勢
成本(每百萬 output token)~$1.65~$15~$30🟢 開源碾壓

一句話總結差距

代碼 / 推理 / 文件分析:開源已經追到雲端 API 的 85-95%,日常夠用。 創意寫作 / 精緻指令遵循 / 生態整合:閉源仍然明顯領先,這是「最後一哩路」。 隱私 + 成本:開源完勝,而且不是一個量級。

💡 實務建議:大多數人的最佳策略不是「二選一」,而是混用——日常聊天、寫作用 ChatGPTClaude;需要本地部署、成本敏感、或做 Agent 開發時切到 Qwen3.6。兩者並存不衝突。


🎯 我該用 Qwen3.6-35B-A3B 嗎?決策指南

💡 選擇建議

  • 你在做 AI Agent / 自動化代碼修復 → 強烈推薦,這是它最強的場景
  • 你需要本地跑一個強大的多模態模型 → 推薦,有 RTX 4090 或 Apple Silicon 就能跑
  • 你是中文使用者 → Qwen 的中文能力在開源模型中一直很強
  • 你需要做客服 / 聊天 / 寫作 → 不一定需要 Qwen3.6,用 ChatGPTClaude 更方便
  • 你在意政治議題回答的中立性 → Qwen 有內容過濾(比 DeepSeek 輕,但仍存在)

⚠️ 不建議的場景:

  • 對敏感話題(台灣政治、天安門)需要無審查回答 → 社群有「abliterated」去審查版,但穩定性未經充分驗證
  • VRAM < 16GB → 跑不動,用雲端 API 更實際
  • 只需要簡單對話 → 殺雞焉用牛刀,Gemma 4 的 E4B 或 Phi-4 更適合

⚠️ 跑分亮眼,但要帶著意識看

每次有中國開源模型發布,社群都會有一波「跑分到底可不可信」的討論——Qwen3.6 也不例外。

你該知道的 3 件事:

疑慮事實建議
官方跑分可能偏高Qwen 系列的官方 benchmark 與獨立評測(如 ArtificialAnalysis)有時存在 3-5% 落差等獨立評測出來再做重大決策
SWE-bench 不代表所有能力SWE-bench 測的是「自動修 GitHub issue」,不代表聊天、寫作、創意也同樣強看你的使用場景,不要只看一個數字
Qwen3.6 發布不到 24 小時本文撰寫時(2026/4/16)這是剛發布的模型,社群實測報告極少持續追蹤 Reddit r/LocalLLaMA、Hugging Face 討論區

我的態度:跑分很亮眼,架構上也確實有創新(Gated DeltaNet + MoE 的結合)。但以經驗來看,任何模型的真實能力都要等社群跑過一兩週,用不同的 prompt、不同的任務測完才能定論。現在可以下載試玩,但不要急著把生產環境從 Claude / GPT 換過來。


❓ FAQ

Qwen3.6-35B-A3B 跟 Qwen3.6-Plus 有什麼不同?

一個開源,一個閉源。 Qwen3.6-Plus 是阿里雲的商業 API(功能最強,1M context),你得付費用;Qwen3.6-35B-A3B 是開源版,Apache 2.0 授權,你可以下載回來自己跑,免費。能力上 Plus 版更強(特別是超長上下文和推理),但 35B-A3B 的性價比在開源界已經是頂級。

35B 參數只用 3B,品質真的不會掉嗎?

MoE 的精髓就在這裡——不是「砍掉」其他 32B,而是「只叫最相關的專家來」。 256 個專家裡,每次推理選 9 個最適合當前任務的。品質跟全部激活差距不大(SWE-bench 73.4 就是證明),但推理速度快得多、記憶體用量少得多。這跟量化壓縮不同——MoE 是架構設計層面的效率。

Qwen3.6 跟 Gemma 4 哪個好?

看用途。 代碼修復和 Agent 任務:Qwen3.6 明顯勝出(SWE-bench 73.4 vs 52.0)。Google 生態整合 / Android 部署:Gemma 4 更適合。一般推理和多語言:兩者接近。兩個都是 Apache 2.0,可以並存使用——不需要二選一。深入了解 Gemma 4 看 這篇

RTX 4090 跑得動嗎?速度快嗎?

跑得動,但別期待飛快。 Q4 量化版大約需要 20GB VRAM,RTX 4090(24GB)可以塞下。推理速度大約是每秒 8-15 tokens(依量化等級和 prompt 長度),比雲端 API 慢但可接受。Apple Silicon(M2 Ultra / M4 Max)的統一記憶體架構會更順,64GB 版本跑 Q4_K_M 很舒服。

Qwen 有內容審查嗎?會影響使用嗎?

有,但比 DeepSeek 輕。 Qwen 系列在涉及中國政治敏感話題(天安門事件、台灣獨立、新疆議題)時會有明顯的迴避或官方口徑回應。日常使用(寫程式、分析文件、一般問答)幾乎不受影響。如果你需要完全無審查,社群有發布 abliterated(去審查)版本,但穩定性尚未經充分驗證。

我現在用 Claude / ChatGPT,該換成 Qwen3.6 嗎?

一般使用者不需要換;AI 開發者值得認真評估。 Claude / ChatGPT 的優勢是「即開即用、有 UI、生態完整」。Qwen3.6-35B-A3B 的優勢是「免費、可本地部署、代碼能力強、隱私可控」。如果你在做 AI Agent 開發、需要本地推理、或成本敏感,Qwen3.6 是你現在最該測試的開源模型。


📌 一句話總結

Qwen3.6-35B-A3B 用「35B 的腦但 3B 的飯量」刷新了開源代碼修復的天花板。 它不會取代 Claude 或 ChatGPT 的日常聊天地位,但對 AI Agent 開發者、本地部署愛好者、和成本敏感的企業來說,這是 2026 年 4 月最不能忽略的開源發布。等一兩週的社群實測報告出來後,再決定要不要正式上線——但現在就該開始試了。

→ 想看更多開源模型的定位:開源與本地端 LLM 指南 → Gemma 4 的深度解析:Google Gemma 4 正式發布 → MiniMax M2.7 的「自我進化」:MiniMax M2.7 開源 → 用 Qwen 做 Agent:AI Agent 完全指南

📚 延伸閱讀