2026 年 4 月 8 日,Meta 超級智慧實驗室(MSL)發布了第一款模型 Muse Spark。 這是 Meta 花 $140 億美元從 Scale AI 挖來 Alexandr Wang 之後的第一張成績單,也是那個被無限期推遲的「Avocado」的最終面貌。
結論先講:Meta 回到了 AI 競賽的牌桌上,但代價是放棄了開源。
🔑 5 個關鍵重點
- Muse Spark 是 Meta 重組 AI 部門後的首款模型——由前 Scale AI CEO Alexandr Wang 領軍
- Intelligence Index 52 分,全球第四(落後 Gemini 3.1 Pro、GPT-5.4、Opus 4.6)
- HealthBench Hard 42.8 分全球第一,超越 GPT-5.4(40.1)和 Gemini(20.6)
- Token 效率驚人:完成同樣測試只用 58M tokens,Opus 要 157M、GPT-5.4 要 120M
- Meta 史上首款閉源模型——開源之王的戰略大轉向
🥑 從 Avocado 到 Muse Spark:發生了什麼事
前情提要
2026 年 3 月,我們報導過 Meta 的 Avocado 模型遭無限期推遲——Llama 正統繼承人在訓練最後階段撞上「對齊稅」瓶頸,甚至傳出 Meta 向死對頭 Google 借 Gemini 撐過空窗期。
兩週後,答案揭曉:Avocado 沒有死,而是整個重來。
Meta 的組織大改造
祖克柏做了三件事:
- 花 $140 億收購 Scale AI,把創辦人 Alexandr Wang 挖來當 MSL(Meta Superintelligence Labs)負責人
- 廢掉 Llama 品牌,用全新的 Muse 系列取代
- 放棄開源——Muse Spark 是 Meta 史上第一款閉源模型
這不是小修小補,是從人事、品牌到商業模式的全面重建。
📊 跑分比較:第四名,但效率最高
Intelligence Index 排名
| 排名 | 模型 | Intelligence Index | 說明 |
|---|---|---|---|
| 🥇 1 | Gemini 3.1 Pro | 57 | Google 當前最強 |
| 🥇 1 | GPT-5.4 | 57 | OpenAI 當前最強 |
| 🥉 3 | Claude Opus 4.6 | 53 | Anthropic 當前最強 |
| 4 | Muse Spark | 52 | Meta 首款 |
| 5 | Claude Sonnet 4.6 | 52 | Anthropic 中階 |
| 6 | GLM-5.1 | — | 智譜 AI |
| 7 | MiniMax M2.7 | 50 | MiniMax 開源 |
解讀:Muse Spark 排名第四,和 Sonnet 4.6 接近,但離 Gemini / GPT-5.4 的 57 分還有明顯差距。
各項 Benchmark 細看
| 評測項目 | Muse Spark | 最強競爭者 | 排名 |
|---|---|---|---|
| Vision(MMMU-Pro) | 80.5% | Gemini 3.1 Pro:82.4% | 🥈 第二 |
| 推理(HLE) | 39.9% | Gemini 3.1 Pro:44.7% | 第三 |
| 健康醫療(HealthBench Hard) | 42.8% | GPT-5.4:40.1% | 🥇 第一 |
| 真實任務(GDPval-AA) | 1427 | GPT-5.4:1676 | 第三 |
| 電信(τ²-Bench) | 92% | 多模型並列 | 並列第一 |
| 終端任務(TerminalBench Hard) | 落後前三 | — | 較弱 |
殺手級指標:Token 效率
這是 Muse Spark 最值得注意的數字:
| 模型 | 完成 Intelligence Index 測試消耗的 Token 數 |
|---|---|
| Gemini 3.1 Pro | 57M |
| Muse Spark | 58M |
| GPT-5.4 | 120M |
| Claude Opus 4.6 | 157M |
Muse Spark 用不到 Opus 三分之一的 Token 就達到了接近的智力分數。 這意味著:就算模型本身「沒那麼聰明」,但它更精簡、更省資源。對 Meta 這種要在 30 億用戶的產品上跑 AI 的公司來說,效率比天花板更重要。
Meta 官方也證實:新的預訓練架構讓 Muse Spark 用不到 Llama 4 Maverick 十分之一的算力就達到了相同的能力水準。
🧠 三種模式:Instant / Thinking / Contemplating
Muse Spark 不是單一模型,而是一套有三種推理深度的系統:
| 模式 | 速度 | 能力 | 適合 |
|---|---|---|---|
| Instant | ⚡ 最快 | 一般對話、快速回答 | 日常聊天、簡單問題 |
| Thinking | 🔄 中等 | 逐步推理、深度分析 | 複雜問題、程式碼、數學 |
| Contemplating | 🐢 最慢 | 多 Agent 平行推理 | 前沿研究、極難問題 |
Contemplating 模式最特別——它不是讓一個模型想更久,而是啟動多個 Agent 平行推理,再整合結果。在 Humanity’s Last Exam 上拿到 58%,FrontierScience Research 拿到 38%。
📱 部署平台:30 億用戶免費用
Muse Spark 正在陸續整合進 Meta 的所有產品:
| 平台 | 狀態 | 說明 |
|---|---|---|
| meta.ai 網站 | ✅ 已上線 | 直接在網頁用 |
| Meta AI App | ✅ 已上線 | 獨立 App |
| 🔄 陸續推送 | 對話中直接使用 | |
| 🔄 陸續推送 | DM 和搜尋整合 | |
| 🔄 陸續推送 | 動態牆和 Messenger | |
| Ray-Ban AI 眼鏡 | 🔄 陸續推送 | 語音 + 視覺即時互動 |
全部免費(可能有速率限制)。API 目前僅開放私人預覽,尚未公開定價。
這是 Meta 的核心優勢——不需要你下載新 App 或申請 API Key。30 億人每天已經在用的 WhatsApp 和 Instagram,就是 AI 的入口。
🔒 開源之王放棄開源:為什麼?
這是整件事最大的轉折。
| 項目 | Llama 系列 | Muse Spark |
|---|---|---|
| 權重公開 | ✅ 開放下載 | ❌ 閉源 |
| 授權 | Meta Llama License | 專有授權 |
| 自架部署 | ✅ 任何人可以 | ❌ 只能用 Meta 平台 |
| API | 社群自建 | 官方私人預覽中 |
Meta 表示「希望未來開源 Muse 系列的某些版本」,但沒有給時間表。
為什麼放棄開源?
三個可能的原因:
- 蒸餾威脅 — 美國三大 AI 公司剛聯手反制中國模型蒸餾,Meta 不想再讓對手免費抄
- 商業化壓力 — 每年燒 $1,150-1,350 億 capex,需要 AI 開始產生收入
- 安全考量 — Muse Spark 的 Apollo Research 評估發現模型有高度「評估意識」(能識別出自己正在被測試),Meta 認為這需要更謹慎的發布策略
對開源 LLM 社群來說,這是一個警訊——過去兩年最大的開源推手退場了。
🏥 意外亮點:醫療健康能力全球第一
Muse Spark 在 HealthBench Hard 上拿到 42.8 分,超越所有競爭者:
| 模型 | HealthBench Hard |
|---|---|
| Muse Spark | 42.8 |
| GPT-5.4 | 40.1 |
| Gemini 3.1 Pro | 20.6 |
| Grok 4.2 | 20.3 |
Meta 和超過 1,000 名醫師合作策劃訓練資料,讓模型能理解營養成分、運動生理學、互動式健康圖表。這可能和 Meta 在 WhatsApp 上推廣健康諮詢功能有關——在新興市場,WhatsApp 是很多人接觸醫療資訊的第一個管道。
🎯 這對你意味什麼?
一般用戶
如果你用 WhatsApp、Instagram 或 Facebook,你已經在用(或即將用到)Muse Spark 了,不需要做任何事。免費、自動整合、不需申請。
開發者
目前沒有公開 API,只有私人預覽。如果你需要 API 存取,先去 meta.ai 排隊。但考慮到 Meta 的閉源策略,定價和使用條款還是未知數。
AI 產業觀察者
Meta 的轉向說明了一件事:純開源在前沿 AI 不可持續。當訓練一個頂級模型要花數億美元,而任何人都能免費用你的權重來訓練競品,商業邏輯不成立。
但這不代表開源已死——MiniMax M2.7、DeepSeek V4 證明了開源仍然有強大的玩家。只是 Meta 決定不再當領頭羊了。
❓ FAQ
Muse Spark 和 Llama 是什麼關係?
Muse 是全新的模型系列,取代了 Llama。Meta 將 AI 研發團隊重組為「Meta 超級智慧實驗室(MSL)」,由前 Scale AI CEO Alexandr Wang 領導,從架構到訓練方法全部重新設計。可以理解為:Llama 是舊團隊的作品,Muse 是新團隊的作品。
Muse Spark 會開源嗎?
Meta 表示「希望」未來開源某些版本,但沒有任何具體承諾或時間表。考慮到蒸餾威脅和商業化壓力,短期內開源的可能性不高。
排名第四,值得關注嗎?
值得。第一,Muse Spark 是 Meta 在沉寂 12 個月後重返前沿的信號——代表這家擁有 30 億用戶的公司認真了。第二,Token 效率全球第二意味著它能以更低的成本服務更多用戶。第三,健康醫療能力全球第一,暗示 Meta 可能在 WhatsApp 上推出大規模健康服務。
Contemplating 模式和 o1 / Claude 的深度思考有什麼不同?
最大差異在於 Contemplating 不是讓單一模型「想更久」,而是啟動多個 Agent 平行推理再整合結果。這更接近「多人討論」而非「一個人苦思」。但這個模式目前還在測試中,尚未對所有用戶開放。
$140 億買 Scale AI 值得嗎?
從 Muse Spark 的表現來看,Meta 至少回到了第四名的位置,結束了 Llama 4 之後長達一年的空窗期。但 $140 億買一個「第四名」是否划算,取決於後續的 Muse 系列能不能持續進步。Alexandr Wang 的真正價值不只是一個模型,而是重建 Meta 整個 AI 研發流程和文化。