2026 年 4 月 12 日,中國 AI 公司 MiniMax 正式開源 M2.7 模型。 這個只有 10B 活躍參數的「小」模型,在軟體工程跑分上追平了 GPT-5.3 Codex,部分指標甚至超越 Claude Opus 4.6——而 API 價格只有後者的五十分之一。
更讓業界驚訝的是:M2.7 在訓練過程中自主完成了 30-50% 的強化學習研究流程。AI 不只在幫人類寫程式碼,已經開始幫自己「練功」了。
🔑 5 個關鍵重點
- 230B 參數 MoE 架構,僅 10B 活躍參數——推理速度 100 TPS,比 Opus 快 3 倍
- 全球首個量產的「自我進化」模型——自主跑了 100+ 輪自我優化迭代
- SWE-Pro 56.22% 追平 GPT-5.3 Codex;SWE-bench Verified 78% 碾壓 Opus 4.6(55%)
- API 價格:輸入 $0.30/M、輸出 $1.20/M——50 倍便宜於 Opus,25 倍便宜於 GPT-5
- 已開源,支援 Claude Code、Cursor、Kilo Code 等主流開發工具
🏢 MiniMax 是誰?3 分鐘搞懂這家公司
MiniMax 由前商湯科技副總裁閆俊傑於 2021 年底在上海創立。投資人陣容豪華:米哈遊、阿里巴巴、騰訊、高瓴、紅杉中國、IDG。
2026 年 1 月,MiniMax 在香港上市,首日暴漲 109%,市值突破千億港元(約 128 億美元),是近四年香港唯一首日翻倍的科技 IPO。36 歲的閆俊傑身價飆升至 32 億美元。
這家公司的特色是:用最少的資源做出最接近頂級的模型。M2.7 是這個哲學的極致體現。
🧬 什麼是「自我進化」?為什麼這很重要
傳統模型訓練 vs. M2.7 的自我進化
傳統的 AI 模型訓練完全由人類研究員主導——設計實驗、跑 benchmark、分析結果、調參數,每一步都需要人工介入。
M2.7 不一樣。MiniMax 設計了一套內部流程,讓模型自己參與自己的訓練:
| 步驟 | 傳統做法 | M2.7 自我進化 |
|---|---|---|
| 分析失敗模式 | 人類看 log | 模型自己讀 log |
| 規劃修改方向 | 研究員開會討論 | 模型自主決策 |
| 更新程式碼 | 手動修改 | 模型自己改 |
| 跑評估測試 | 人類啟動 pipeline | 模型自動觸發 |
| 比較結果 | 人類分析圖表 | 模型自己判斷保留或丟棄 |
在訓練過程中,M2.7 自主執行了超過 100 輪這樣的完整迭代循環,在內部評估上實現了 30% 的效能提升。
這代表什麼?
簡單說:AI 開始能幫自己變強了。M2.7 處理了 30-50% 的強化學習研究流程——包括文獻回顧、數據管線管理、實驗監控、除錯和 log 分析。
這不是「AI 覺醒」的科幻劇情。這是工程上的務實做法:讓 AI 處理訓練流程中重複性高、規則明確的部分,讓人類研究員專注在最需要創意和判斷力的決策上。
📊 跑分比較:10B 活躍參數打出什麼成績
軟體工程能力
| Benchmark | M2.7 | Claude Opus 4.6 | GPT-5.3 Codex |
|---|---|---|---|
| SWE-Pro | 56.22% | ~57% | 56.2% |
| SWE-bench Verified | 78% | 55% | — |
| VIBE-Pro(完整專案交付) | 55.6% | — | — |
| Terminal Bench 2 | 57.0% | — | — |
重點解讀:SWE-Pro 上 M2.7 幾乎追平 Opus 和 Codex。而在 SWE-bench Verified(更貼近真實 bug 修復的測試)上,M2.7 的 78% 大幅超越 Opus 的 55%。
辦公生產力
| Benchmark | M2.7 | 說明 |
|---|---|---|
| GDPval-AA ELO | 1495 | 開源模型最高分 |
| 技能遵循率(40 項複雜任務) | 97% | 超過 2,000 token 的多步驟任務 |
| MM Claw(Agent 評估) | 62.7% | 接近 Sonnet 4.6 水準 |
機器學習競賽
| Benchmark | M2.7 | Gemini 3.1 | GPT-5.4 |
|---|---|---|---|
| MLE-Bench Lite(獎牌率) | 66.6% | 66.6% | 71.2% |
M2.7 在 22 場 ML 競賽中拿下 9 面金牌,獎牌率追平 Google Gemini 3.1,僅次於 GPT-5.4。
⚡ 速度與成本:真正的殺手鐧
開源 = 自架免費,API = 託管服務
先釐清一個常見誤解:M2.7 已完全開源,模型權重可免費下載。 如果你有足夠的 GPU,自行部署不需要付任何授權費——跟 Linux 一樣,軟體免費,硬體自備。
但不是每個人都想自己管 GPU。MiniMax 同時提供了託管 API 服務,幫你跑模型、管基礎架構,按用量收費。下面的價格比較,指的都是這種「託管 API」的費用,不是模型本身的授權費。
API 託管價格比較
| 項目 | M2.7(API) | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| 輸入價格 | $0.30/M tokens | $15/M tokens | $2.50/M tokens |
| 輸出價格 | $1.20/M tokens | $75/M tokens | $10/M tokens |
| 快取後混合成本 | $0.06/M tokens | — | — |
| 推理速度 | 100 TPS | ~33 TPS | ~40 TPS |
| 活躍參數 | 10B | 未公開 | 未公開 |
| 自架成本 | $0(需自備 GPU) | ❌ 不可自架 | ❌ 不可自架 |
換算一下:就算用 API 託管,M2.7 的輸入價格也只有 Opus 的 1/50,輸出是 1/60。速度還快 3 倍。自架的話,邊際成本趨近於零——這是閉源模型做不到的。
Kilo Code 的實測報告指出:M2.7 交付了 Opus 4.6 約 90% 的品質,但總任務成本只有 Opus 的 7%。
兩個 API 版本
| 版本 | 特性 | 適合 |
|---|---|---|
| M2.7 標準版 | 均衡性能 | 一般開發、Agent 任務 |
| M2.7 Highspeed | 更低延遲,結果相同 | 即時互動、對延遲敏感的應用 |
💡 自架 vs. API 怎麼選? 230B 參數的完整模型需要多張高階 GPU(估計 4-8 張 A100 80GB 以上)。如果你只是個人開發者或中小團隊,直接用 API 最划算。如果你是有 GPU 叢集的企業、有資料合規需求、或推理量大到 API 費用不划算,才值得考慮自架。
🏗️ 架構解析:為什麼 10B 就夠用
M2.7 採用 Sparse Mixture-of-Experts(稀疏混合專家) 架構:
- 總參數:230B
- 活躍參數:每次推理僅啟用 10B(全部的 4.3%)
- 專家數量:256 個
- 層數:62 層
- Hidden Size:3,072
- 上下文窗口:204,800 tokens(約 20 萬)
MoE 的核心概念:不是所有參數都參與每次計算。每個 token 只會「激活」最相關的幾個專家模組,其餘保持休眠。這讓模型擁有大模型的知識廣度,但只付出小模型的計算成本。
DeepSeek V4 也用了類似的 MoE 架構,這已經成為 2026 年高效能模型的主流設計範式。
🔧 開發者生態:不只是 API
M2.7 已經整合進主流開發工具鏈:
| 工具 | 支援狀態 |
|---|---|
| Claude Code | ✅ 可用 |
| Cursor | ✅ 可用 |
| Kilo Code | ✅ 可用(有實測報告) |
| Cline | ✅ 可用 |
| Codex CLI | ✅ 可用 |
| Roo Code | ✅ 可用 |
| TRAE | ✅ 可用 |
Agent 能力亮點
M2.7 原生支援多 Agent 協作,不是靠 prompt 硬塞角色分工,而是訓練階段就內建了:
- 角色邊界維持 — 在多 Agent 場景中保持身份一致性
- 對抗推理 — 能挑戰隊友的錯誤判斷
- 協議遵循 — 原生支援 MCP 等 Agent 通訊協議
- 狀態機管理 — 在複雜的多步驟任務中自主決策
更多 Agent 生態系的全景,請看 Agentic AI 趨勢總覽。
🛠️ 實戰教學:怎麼開始用 M2.7
M2.7 有三種使用方式,從最簡單到最硬核排列:
方式一:用 API(最簡單,5 分鐘上手)
適合:個人開發者、想快速試用、不想管 GPU
Step 1:申請 API Key
到 MiniMax 開發者平台 註冊帳號,進入 API Keys 頁面產生金鑰。複製後立刻存好——頁面關掉就看不到完整金鑰了。
Step 2:用 Python 呼叫
M2.7 的 API 相容 OpenAI 和 Anthropic SDK 格式,不需要學新的 SDK:
# 方法 A:用 Anthropic SDK(推薦)
from anthropic import Anthropic
client = Anthropic(
base_url="https://api.minimax.io/anthropic",
api_key="你的_MINIMAX_API_KEY"
)
response = client.messages.create(
model="MiniMax-M2.7",
max_tokens=1024,
messages=[
{"role": "user", "content": "用 Python 寫一個快速排序"}
]
)
print(response.content[0].text)
# 方法 B:用 OpenAI SDK
from openai import OpenAI
client = OpenAI(
base_url="https://api.minimax.io/v1",
api_key="你的_MINIMAX_API_KEY"
)
response = client.chat.completions.create(
model="MiniMax-M2.7",
messages=[
{"role": "user", "content": "用 Python 寫一個快速排序"}
]
)
print(response.choices[0].message.content)
💡 已經在用 OpenAI 或 Anthropic SDK 的專案?只需要改
base_url和api_key,其他程式碼幾乎不用動。
方式二:接進你的開發工具(推薦開發者)
適合:日常用 Claude Code / Cursor / VS Code 寫程式的人
Claude Code 設定
編輯 ~/.claude/settings.json:
{
"env": {
"ANTHROPIC_BASE_URL": "https://api.minimax.io/anthropic",
"ANTHROPIC_AUTH_TOKEN": "你的_MINIMAX_API_KEY",
"ANTHROPIC_MODEL": "MiniMax-M2.7",
"API_TIMEOUT_MS": "3000000"
}
}
設定完重啟 Claude Code 就能用了。
Cursor 設定
- 打開 Settings → Models
- 啟用 Override OpenAI Base URL
- Base URL 填
https://api.minimax.io/v1 - API Key 填你的 MiniMax 金鑰
- 新增自訂模型 MiniMax-M2.7 並啟用
Kilo Code / Cline / Roo Code
這些 VS Code 擴充都支援自訂 API Provider:
- 在擴充設定中選 API Provider → MiniMax(或自訂 OpenAI Compatible)
- Endpoint 填
https://api.minimax.io/v1 - 貼上 API Key
- 模型名稱填
MiniMax-M2.7
方式三:自架部署(進階,需要 GPU)
適合:企業、有資料合規需求、大量推理需求
硬體需求
這是重點——M2.7 雖然只有 10B 活躍參數,但完整模型權重是 230B,載入記憶體需要約 220 GB:
| 配置 | GPU 規格 | 總 VRAM | 支援上下文長度 | 適合 |
|---|---|---|---|---|
| 入門配置 | 4x A100 80GB | 320 GB | ~400K tokens | 一般推理、中等並發 |
| 推薦配置 | 4x H100 80GB | 320 GB | ~400K tokens | 更快推理速度 |
| 高階配置 | 4x H200 141GB | 564 GB | ~400K tokens | 更大 batch size |
| 全量配置 | 8x H100/H200 | 640-1128 GB | 最高 3M tokens | 超長上下文、高並發 |
⚠️ 消費級顯卡跑不動。 就算是 RTX 4090(24GB VRAM),4 張加起來也只有 96GB,遠不夠載入 220GB 的模型權重。自架 M2.7 是企業級場景,個人用戶直接用 API。
用 vLLM 部署(推薦)
# 4 卡部署
SAFETENSORS_FAST_GPU=1 vllm serve \
MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
--tensor-parallel-size 4 \
--enable-auto-tool-choice --tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think
# 8 卡部署(支援更長上下文)
SAFETENSORS_FAST_GPU=1 vllm serve \
MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
--enable_expert_parallel --tensor-parallel-size 8 \
--enable-auto-tool-choice --tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think
vLLM 會自動從 Hugging Face 下載模型權重並快取。首次啟動需要較長時間下載(模型檔案約 440GB)。
用 Ollama Cloud(折衷方案)
如果你不想管 GPU 但也不想直接用 MiniMax API,Ollama 提供了雲端方案:
ollama run minimax-m2.7:cloud
這本質上還是雲端推理,但透過 Ollama 的統一介面操作,方便在不同模型間切換。
三種方式總結
| 方式 | 成本 | 難度 | 適合誰 |
|---|---|---|---|
| API | $0.30/M tokens | ⭐ 簡單 | 個人開發者、快速試用 |
| 開發工具整合 | 同 API | ⭐⭐ 中等 | 日常寫程式的開發者 |
| 自架部署 | GPU 硬體成本 | ⭐⭐⭐⭐ 進階 | 企業、資料合規、大量推理 |
🎯 我該用 M2.7 嗎?選擇指南
💡 選擇建議
- 預算有限但需要接近頂級的程式碼能力 → M2.7 是目前性價比最高的選擇
- 需要最高品質的推理和寫作 → Claude Opus 4.6 仍然是天花板
- 大量 Agent 任務、成本敏感 → M2.7 的 50 倍價格優勢在規模化時非常顯著
- 企業合規、資料不出境 → M2.7 已開源,可自行部署
- 想先試試 → 直接用 MiniMax API,$0.30/M 的門檻幾乎等於免費
什麼時候不該選 M2.7
- 需要超長上下文(100 萬 Token)→ GPT-5.4 或 DeepSeek V4
- 需要最強的多模態能力(影像、音訊) → 目前 M2.7 主要專注文字和程式碼
- 需要最高的 AI Agent 編排穩定性 → Claude Managed Agents 提供全託管方案
完整模型比較請看 GPT vs Claude vs Gemini 終極比較。
🌊 產業衝擊:定價權之戰
M2.7 的出現有三層意義:
1. 開源模型正式進入「夠用」區間
過去開源模型是「便宜但差一截」。M2.7 在 SWE-bench Verified 上甚至超越 Opus——這改變了遊戲規則。對大多數應用場景,「90% 品質、7% 成本」已經足夠好了。
2. MoE 架構成為新常態
DeepSeek V4、M2.7 都證明:用稀疏激活把大模型的成本壓到小模型的水準,是可行的。這會加速整個產業往 MoE 轉型。
3. 自我進化不再是論文概念
M2.7 是第一個在量產模型中實踐自我進化的案例。當 AI 能處理自己 30-50% 的訓練流程,模型迭代的速度會指數級加快。這對所有 AI 公司都是警訊——你的競爭對手不只有其他公司的工程師,還有他們的 AI。
⚠️ 跑分亮眼,但要帶著意識看
M2.7 的 benchmark 數字確實搶眼,但在照單全收之前,有幾個值得留意的背景脈絡:
Benchmark 灌水的產業通病
這不是中國模型獨有的問題——所有 AI 公司都有動機讓自家模型在 benchmark 上好看。常見的手法包括:在訓練資料中混入測試題(data contamination)、挑選對自己有利的 benchmark 組合、或是用特定 prompt 格式跑出最佳成績。OpenAI、Google 也曾被質疑過類似問題。
但客觀來說,中國 AI 模型在這方面受到的質疑更多,主要原因有三:
| 質疑點 | 說明 | 反駁 |
|---|---|---|
| 第三方驗證較少 | 多數 benchmark 由模型開發者自行公布 | M2.7 有 Kilo Code、Artificial Analysis 等第三方實測 |
| 訓練資料不透明 | 開源模型權重 ≠ 開源訓練流程 | 但閉源模型(GPT、Claude)的訓練資料同樣不透明 |
| 選擇性公布 | 只秀最好看的 benchmark | 每家公司都這樣,這是行銷,不是造假 |
第三方實測怎麼說
值得注意的是,M2.7 確實有一些非官方的獨立驗證:
- Kilo Code 實測:在真實 coding 任務中交付 Opus 約 90% 品質(不是跑 benchmark,是實際完成任務)
- Artificial Analysis 智力指數 v4.0:M2.7 得分 50,仍落後 Gemini 3.1 Pro 和 GPT-5.4(57)、Opus 4.6(53)、Sonnet 4.6(52)
- PinchBench:86.2%,全球第五,距離 Opus 4.6 僅差 1.2 個百分點
Artificial Analysis 的排名比較有參考價值——因為它是用統一標準測所有模型,不是各家自報成績。從這個角度看,M2.7 確實強,但並沒有超越 Opus 或 GPT-5.4,更接近「以極低成本逼近頂級」。
我的建議
跑分當參考,實測定生死。 如果你考慮在生產環境使用 M2.7,建議:
- 用你自己的真實任務測(不是跑公開 benchmark)
- 和你目前在用的模型做 A/B 比較
- 先在非關鍵任務上跑一陣子,觀察穩定度
M2.7 的開源特性讓你可以零成本試用——這本身就是最好的驗證方式。
❓ FAQ
M2.7 的「自我進化」會不會失控?
不會。M2.7 的自我進化是在嚴格限制的框架內運作的——它只能在指定的訓練管線中執行預定義的操作(讀 log、調參數、跑測試)。它沒有能力修改自己的目標函數或突破框架限制。這更像是「自動化測試 + 自動化調參」,而非科幻片裡的自我意識覺醒。
10B 活躍參數真的夠用嗎?
從跑分來看,答案是肯定的。MoE 架構的精髓在於:230B 的總參數提供了廣泛的知識覆蓋,而每次推理只啟用最相關的 10B 參數。這就像一個擁有 256 位專家的顧問團隊——每次任務只派最適合的幾位上場,但背後有整個團隊的知識庫支撐。
M2.7 中文能力怎麼樣?
MiniMax 是中國公司,M2.7 的中文訓練資料比例較高。在中文辦公任務(Excel 公式、PPT 排版、Word 編輯)上,GDPval-AA 拿到開源模型最高的 ELO 1495 分。對需要中文處理能力的使用者來說,這是一個有力的選擇。
開源版和 API 版有差別嗎?
模型權重完全相同。差別在於你是用 MiniMax 的雲端跑(API,$0.30/M tokens)還是自己部署。自行部署需要足夠的 GPU 資源來載入 230B 參數的完整模型,適合有隱私合規需求或大量推理需求的企業。
M2.7 和 DeepSeek V4 怎麼選?
兩者都是開源的中國 MoE 模型,但定位不同。DeepSeek V4 有 1 兆參數和 100 萬 Token 上下文,走的是「全面超大」路線。M2.7 只有 230B 參數但活躍參數更少(10B vs DeepSeek 的 37B),走的是「極致效率」路線。如果你需要超長上下文和多模態,選 DeepSeek;如果你追求最低成本和最快速度,選 M2.7。