回到頂部
Meta Muse Spark:燒 1490 億美元的首款模型,成績如何?

Meta Muse Spark:燒 1490 億美元的首款模型,成績如何?

Meta 超級智慧實驗室發布首款模型 Muse Spark。Intelligence Index 第四、HealthBench 全球第一、Token 效率碾壓 GPT 和 Claude——但代價是放棄了開源。初步整理跑分、架構、部署平台與戰略轉向。

2026 年 4 月 8 日,Meta 超級智慧實驗室(MSL)發布了第一款模型 Muse Spark。 這是 Meta 花 $140 億美元從 Scale AI 挖來 Alexandr Wang 之後的第一張成績單,也是那個被無限期推遲的「Avocado」的最終面貌。

結論先講:Meta 回到了 AI 競賽的牌桌上,但代價是放棄了開源。

🔑 5 個關鍵重點

  1. Muse Spark 是 Meta 重組 AI 部門後的首款模型——由前 Scale AI CEO Alexandr Wang 領軍
  2. Intelligence Index 52 分,全球第四(落後 Gemini 3.1 Pro、GPT-5.4、Opus 4.6)
  3. HealthBench Hard 42.8 分全球第一,超越 GPT-5.4(40.1)和 Gemini(20.6)
  4. Token 效率驚人:完成同樣測試只用 58M tokens,Opus 要 157M、GPT-5.4 要 120M
  5. Meta 史上首款閉源模型——開源之王的戰略大轉向

🥑 從 Avocado 到 Muse Spark:發生了什麼事

前情提要

2026 年 3 月,我們報導過 Meta 的 Avocado 模型遭無限期推遲——Llama 正統繼承人在訓練最後階段撞上「對齊稅」瓶頸,甚至傳出 Meta 向死對頭 Google 借 Gemini 撐過空窗期。

兩週後,答案揭曉:Avocado 沒有死,而是整個重來

Meta 的組織大改造

祖克柏做了三件事:

  1. 花 $140 億收購 Scale AI,把創辦人 Alexandr Wang 挖來當 MSL(Meta Superintelligence Labs)負責人
  2. 廢掉 Llama 品牌,用全新的 Muse 系列取代
  3. 放棄開源——Muse Spark 是 Meta 史上第一款閉源模型

這不是小修小補,是從人事、品牌到商業模式的全面重建。


📊 跑分比較:第四名,但效率最高

Intelligence Index 排名

排名模型Intelligence Index說明
🥇 1Gemini 3.1 Pro57Google 當前最強
🥇 1GPT-5.457OpenAI 當前最強
🥉 3Claude Opus 4.653Anthropic 當前最強
4Muse Spark52Meta 首款
5Claude Sonnet 4.652Anthropic 中階
6GLM-5.1智譜 AI
7MiniMax M2.750MiniMax 開源

解讀:Muse Spark 排名第四,和 Sonnet 4.6 接近,但離 Gemini / GPT-5.4 的 57 分還有明顯差距。

各項 Benchmark 細看

評測項目Muse Spark最強競爭者排名
Vision(MMMU-Pro)80.5%Gemini 3.1 Pro:82.4%🥈 第二
推理(HLE)39.9%Gemini 3.1 Pro:44.7%第三
健康醫療(HealthBench Hard)42.8%GPT-5.4:40.1%🥇 第一
真實任務(GDPval-AA)1427GPT-5.4:1676第三
電信(τ²-Bench)92%多模型並列並列第一
終端任務(TerminalBench Hard)落後前三較弱

殺手級指標:Token 效率

這是 Muse Spark 最值得注意的數字:

模型完成 Intelligence Index 測試消耗的 Token 數
Gemini 3.1 Pro57M
Muse Spark58M
GPT-5.4120M
Claude Opus 4.6157M

Muse Spark 用不到 Opus 三分之一的 Token 就達到了接近的智力分數。 這意味著:就算模型本身「沒那麼聰明」,但它更精簡、更省資源。對 Meta 這種要在 30 億用戶的產品上跑 AI 的公司來說,效率比天花板更重要。

Meta 官方也證實:新的預訓練架構讓 Muse Spark 用不到 Llama 4 Maverick 十分之一的算力就達到了相同的能力水準。


🧠 三種模式:Instant / Thinking / Contemplating

Muse Spark 不是單一模型,而是一套有三種推理深度的系統:

模式速度能力適合
Instant⚡ 最快一般對話、快速回答日常聊天、簡單問題
Thinking🔄 中等逐步推理、深度分析複雜問題、程式碼、數學
Contemplating🐢 最慢多 Agent 平行推理前沿研究、極難問題

Contemplating 模式最特別——它不是讓一個模型想更久,而是啟動多個 Agent 平行推理,再整合結果。在 Humanity’s Last Exam 上拿到 58%,FrontierScience Research 拿到 38%。


📱 部署平台:30 億用戶免費用

Muse Spark 正在陸續整合進 Meta 的所有產品:

平台狀態說明
meta.ai 網站✅ 已上線直接在網頁用
Meta AI App✅ 已上線獨立 App
WhatsApp🔄 陸續推送對話中直接使用
Instagram🔄 陸續推送DM 和搜尋整合
Facebook🔄 陸續推送動態牆和 Messenger
Ray-Ban AI 眼鏡🔄 陸續推送語音 + 視覺即時互動

全部免費(可能有速率限制)。API 目前僅開放私人預覽,尚未公開定價。

這是 Meta 的核心優勢——不需要你下載新 App 或申請 API Key。30 億人每天已經在用的 WhatsApp 和 Instagram,就是 AI 的入口。


🔒 開源之王放棄開源:為什麼?

這是整件事最大的轉折。

項目Llama 系列Muse Spark
權重公開✅ 開放下載❌ 閉源
授權Meta Llama License專有授權
自架部署✅ 任何人可以❌ 只能用 Meta 平台
API社群自建官方私人預覽中

Meta 表示「希望未來開源 Muse 系列的某些版本」,但沒有給時間表。

為什麼放棄開源?

三個可能的原因:

  1. 蒸餾威脅美國三大 AI 公司剛聯手反制中國模型蒸餾,Meta 不想再讓對手免費抄
  2. 商業化壓力 — 每年燒 $1,150-1,350 億 capex,需要 AI 開始產生收入
  3. 安全考量 — Muse Spark 的 Apollo Research 評估發現模型有高度「評估意識」(能識別出自己正在被測試),Meta 認為這需要更謹慎的發布策略

開源 LLM 社群來說,這是一個警訊——過去兩年最大的開源推手退場了。


🏥 意外亮點:醫療健康能力全球第一

Muse Spark 在 HealthBench Hard 上拿到 42.8 分,超越所有競爭者:

模型HealthBench Hard
Muse Spark42.8
GPT-5.440.1
Gemini 3.1 Pro20.6
Grok 4.220.3

Meta 和超過 1,000 名醫師合作策劃訓練資料,讓模型能理解營養成分、運動生理學、互動式健康圖表。這可能和 Meta 在 WhatsApp 上推廣健康諮詢功能有關——在新興市場,WhatsApp 是很多人接觸醫療資訊的第一個管道。


🎯 這對你意味什麼?

一般用戶

如果你用 WhatsApp、Instagram 或 Facebook,你已經在用(或即將用到)Muse Spark 了,不需要做任何事。免費、自動整合、不需申請。

開發者

目前沒有公開 API,只有私人預覽。如果你需要 API 存取,先去 meta.ai 排隊。但考慮到 Meta 的閉源策略,定價和使用條款還是未知數。

AI 產業觀察者

Meta 的轉向說明了一件事:純開源在前沿 AI 不可持續。當訓練一個頂級模型要花數億美元,而任何人都能免費用你的權重來訓練競品,商業邏輯不成立。

但這不代表開源已死——MiniMax M2.7DeepSeek V4 證明了開源仍然有強大的玩家。只是 Meta 決定不再當領頭羊了。


❓ FAQ

Muse Spark 和 Llama 是什麼關係?

Muse 是全新的模型系列,取代了 Llama。Meta 將 AI 研發團隊重組為「Meta 超級智慧實驗室(MSL)」,由前 Scale AI CEO Alexandr Wang 領導,從架構到訓練方法全部重新設計。可以理解為:Llama 是舊團隊的作品,Muse 是新團隊的作品。

Muse Spark 會開源嗎?

Meta 表示「希望」未來開源某些版本,但沒有任何具體承諾或時間表。考慮到蒸餾威脅和商業化壓力,短期內開源的可能性不高。

排名第四,值得關注嗎?

值得。第一,Muse Spark 是 Meta 在沉寂 12 個月後重返前沿的信號——代表這家擁有 30 億用戶的公司認真了。第二,Token 效率全球第二意味著它能以更低的成本服務更多用戶。第三,健康醫療能力全球第一,暗示 Meta 可能在 WhatsApp 上推出大規模健康服務。

Contemplating 模式和 o1 / Claude 的深度思考有什麼不同?

最大差異在於 Contemplating 不是讓單一模型「想更久」,而是啟動多個 Agent 平行推理再整合結果。這更接近「多人討論」而非「一個人苦思」。但這個模式目前還在測試中,尚未對所有用戶開放。

$140 億買 Scale AI 值得嗎?

從 Muse Spark 的表現來看,Meta 至少回到了第四名的位置,結束了 Llama 4 之後長達一年的空窗期。但 $140 億買一個「第四名」是否划算,取決於後續的 Muse 系列能不能持續進步。Alexandr Wang 的真正價值不只是一個模型,而是重建 Meta 整個 AI 研發流程和文化。

📚 延伸閱讀