Meta Muse Spark：燒 1490 億美元的首款模型，成績如何？

Meta 超級智慧實驗室發布首款模型 Muse Spark。Intelligence Index 第四、HealthBench 全球第一、Token 效率碾壓 GPT 和 Claude——但代價是放棄了開源。初步整理跑分、架構、部署平台與戰略轉向。

發佈於： 2026-04-08

入門 Meta Muse Spark Alexandr Wang

2026 年 4 月 8 日，Meta 超級智慧實驗室（MSL）發布了第一款模型 Muse Spark。 這是 Meta 花 $140 億美元從 Scale AI 挖來 Alexandr Wang 之後的第一張成績單，也是那個被無限期推遲的「Avocado」的最終面貌。

結論先講：Meta 回到了 AI 競賽的牌桌上，但代價是放棄了開源。

🔑 5 個關鍵重點

Muse Spark 是 Meta 重組 AI 部門後的首款模型——由前 Scale AI CEO Alexandr Wang 領軍

Intelligence Index 52 分，全球第四（落後 Gemini 3.1 Pro、GPT-5.4、Opus 4.6）

HealthBench Hard 42.8 分全球第一，超越 GPT-5.4（40.1）和 Gemini（20.6）

Token 效率驚人：完成同樣測試只用 58M tokens，Opus 要 157M、GPT-5.4 要 120M

Meta 史上首款閉源模型——開源之王的戰略大轉向

🥑 從 Avocado 到 Muse Spark：發生了什麼事

前情提要

2026 年 3 月，Meta 的 Avocado 模型遭無限期推遲——Llama 正統繼承人在訓練最後階段撞上「對齊稅」瓶頸，甚至傳出 Meta 向死對頭 Google 借 Gemini 撐過空窗期。

兩週後，答案揭曉：Avocado 沒有死，而是整個重來。

Meta 的組織大改造

祖克柏做了三件事：

花 $140 億收購 Scale AI，把創辦人 Alexandr Wang 挖來當 MSL（Meta Superintelligence Labs）負責人
廢掉 Llama 品牌，用全新的 Muse 系列取代
放棄開源——Muse Spark 是 Meta 史上第一款閉源模型

這不是小修小補，是從人事、品牌到商業模式的全面重建。

📊 跑分比較：第四名，但效率最高

Intelligence Index 排名

排名	模型	Intelligence Index	說明
🥇 1	Gemini 3.1 Pro	57	Google 當前最強
🥇 1	GPT-5.4	57	OpenAI 當前最強
🥉 3	Claude Opus 4.6	53	Anthropic 當前最強
4	Muse Spark	52	Meta 首款
5	Claude Sonnet 4.6	52	Anthropic 中階
6	GLM-5.1	—	智譜 AI
7	MiniMax M2.7	50	MiniMax 開源

解讀：Muse Spark 排名第四，和 Sonnet 4.6 接近，但離 Gemini / GPT-5.4 的 57 分還有明顯差距。

各項 Benchmark 細看

評測項目	Muse Spark	最強競爭者	排名
Vision（MMMU-Pro）	80.5%	Gemini 3.1 Pro：82.4%	🥈 第二
推理（HLE）	39.9%	Gemini 3.1 Pro：44.7%	第三
健康醫療（HealthBench Hard）	42.8%	GPT-5.4：40.1%	🥇 第一
真實任務（GDPval-AA）	1427	GPT-5.4：1676	第三
電信（τ²-Bench）	92%	多模型並列	並列第一
終端任務（TerminalBench Hard）	落後前三	—	較弱

殺手級指標：Token 效率

這是 Muse Spark 最值得注意的數字：

模型	完成 Intelligence Index 測試消耗的 Token 數
Gemini 3.1 Pro	57M
Muse Spark	58M
GPT-5.4	120M
Claude Opus 4.6	157M

Muse Spark 用不到 Opus 三分之一的 Token 就達到了接近的智力分數。 這意味著：就算模型本身「沒那麼聰明」，但它更精簡、更省資源。對 Meta 這種要在 30 億用戶的產品上跑 AI 的公司來說，效率比天花板更重要。

Meta 官方也證實：新的預訓練架構讓 Muse Spark 用不到 Llama 4 Maverick 十分之一的算力就達到了相同的能力水準。

🧠 三種模式：Instant / Thinking / Contemplating

Muse Spark 不是單一模型，而是一套有三種推理深度的系統：

模式	速度	能力	適合
Instant	⚡ 最快	一般對話、快速回答	日常聊天、簡單問題
Thinking	🔄 中等	逐步推理、深度分析	複雜問題、程式碼、數學
Contemplating	🐢 最慢	多 Agent 平行推理	前沿研究、極難問題

Contemplating 模式最特別——它不是讓一個模型想更久，而是啟動多個 Agent 平行推理，再整合結果。在 Humanity’s Last Exam 上拿到 58%，FrontierScience Research 拿到 38%。

📱 部署平台：30 億用戶免費用

Muse Spark 正在陸續整合進 Meta 的所有產品：

平台	狀態	說明
meta.ai 網站	✅ 已上線	直接在網頁用
Meta AI App	✅ 已上線	獨立 App
WhatsApp	🔄 陸續推送	對話中直接使用
Instagram	🔄 陸續推送	DM 和搜尋整合
Facebook	🔄 陸續推送	動態牆和 Messenger
Ray-Ban AI 眼鏡	🔄 陸續推送	語音 + 視覺即時互動

全部免費（可能有速率限制）。API 目前僅開放私人預覽，尚未公開定價。

這是 Meta 的核心優勢——不需要你下載新 App 或申請 API Key。30 億人每天已經在用的 WhatsApp 和 Instagram，就是 AI 的入口。

🔒 開源之王放棄開源：為什麼？

這是整件事最大的轉折。

項目	Llama 系列	Muse Spark
權重公開	✅ 開放下載	❌ 閉源
授權	Meta Llama License	專有授權
自架部署	✅ 任何人可以	❌ 只能用 Meta 平台
API	社群自建	官方私人預覽中

Meta 表示「希望未來開源 Muse 系列的某些版本」，但沒有給時間表。

為什麼放棄開源？

三個可能的原因：

蒸餾威脅 — 美國三大 AI 公司剛聯手反制中國模型蒸餾，Meta 不想再讓對手免費抄
商業化壓力 — 每年燒 $1,150-1,350 億 capex，需要 AI 開始產生收入
安全考量 — Muse Spark 的 Apollo Research 評估發現模型有高度「評估意識」（能識別出自己正在被測試），Meta 認為這需要更謹慎的發布策略

對開源 LLM 社群來說，這是一個警訊——過去兩年最大的開源推手退場了。

🏥 意外亮點：醫療健康能力全球第一

Muse Spark 在 HealthBench Hard 上拿到 42.8 分，超越所有競爭者：

模型	HealthBench Hard
Muse Spark	42.8
GPT-5.4	40.1
Gemini 3.1 Pro	20.6
Grok 4.2	20.3

Meta 和超過 1,000 名醫師合作策劃訓練資料，讓模型能理解營養成分、運動生理學、互動式健康圖表。這可能和 Meta 在 WhatsApp 上推廣健康諮詢功能有關——在新興市場，WhatsApp 是很多人接觸醫療資訊的第一個管道。

🎯 這對你意味什麼？

一般用戶

如果你用 WhatsApp、Instagram 或 Facebook，你已經在用（或即將用到）Muse Spark 了，不需要做任何事。免費、自動整合、不需申請。

開發者

目前沒有公開 API，只有私人預覽。如果你需要 API 存取，先去 meta.ai 排隊。但考慮到 Meta 的閉源策略，定價和使用條款還是未知數。

AI 產業觀察者

Meta 的轉向說明了一件事：純開源在前沿 AI 不可持續。當訓練一個頂級模型要花數億美元，而任何人都能免費用你的權重來訓練競品，商業邏輯不成立。

但這不代表開源已死——MiniMax M2.7、DeepSeek V4 證明了開源仍然有強大的玩家。只是 Meta 決定不再當領頭羊了。

❓ FAQ

Muse Spark 和 Llama 是什麼關係？

Muse 是全新的模型系列，取代了 Llama。Meta 將 AI 研發團隊重組為「Meta 超級智慧實驗室（MSL）」，由前 Scale AI CEO Alexandr Wang 領導，從架構到訓練方法全部重新設計。可以理解為：Llama 是舊團隊的作品，Muse 是新團隊的作品。

Muse Spark 會開源嗎？

Meta 表示「希望」未來開源某些版本，但沒有任何具體承諾或時間表。考慮到蒸餾威脅和商業化壓力，短期內開源的可能性不高。

排名第四，值得關注嗎？

值得。第一，Muse Spark 是 Meta 在沉寂 12 個月後重返前沿的信號——代表這家擁有 30 億用戶的公司認真了。第二，Token 效率全球第二意味著它能以更低的成本服務更多用戶。第三，健康醫療能力全球第一，暗示 Meta 可能在 WhatsApp 上推出大規模健康服務。

Contemplating 模式和 o1 / Claude 的深度思考有什麼不同？

最大差異在於 Contemplating 不是讓單一模型「想更久」，而是啟動多個 Agent 平行推理再整合結果。這更接近「多人討論」而非「一個人苦思」。但這個模式目前還在測試中，尚未對所有用戶開放。

$140 億買 Scale AI 值得嗎？

從 Muse Spark 的表現來看，Meta 至少回到了第四名的位置，結束了 Llama 4 之後長達一年的空窗期。但 $140 億買一個「第四名」是否划算，取決於後續的 Muse 系列能不能持續進步。Alexandr Wang 的真正價值不只是一個模型，而是重建 Meta 整個 AI 研發流程和文化。

№ · further reading