回到頂部

🧬 MiniMax M2.7:會自我進化的 AI 模型,性能追平 Claude 和 GPT,成本只要 2%

MiniMax M2.7 開源登場——230B 參數 MoE 架構、自主完成 30-50% 訓練流程、SWE-Pro 追平 GPT-5.3 Codex,API 價格卻只有 Opus 的五十分之一。完整解析架構、跑分、定價與產業衝擊。

MiniMax M2.7:會自我進化的 AI 模型,性能追平 Claude 和 GPT,成本只要 2%

2026 年 4 月 12 日,中國 AI 公司 MiniMax 正式開源 M2.7 模型。 這個只有 10B 活躍參數的「小」模型,在軟體工程跑分上追平了 GPT-5.3 Codex,部分指標甚至超越 Claude Opus 4.6——而 API 價格只有後者的五十分之一。

更讓業界驚訝的是:M2.7 在訓練過程中自主完成了 30-50% 的強化學習研究流程。AI 不只在幫人類寫程式碼,已經開始幫自己「練功」了。

🔑 5 個關鍵重點

  1. 230B 參數 MoE 架構,僅 10B 活躍參數——推理速度 100 TPS,比 Opus 快 3 倍
  2. 全球首個量產的「自我進化」模型——自主跑了 100+ 輪自我優化迭代
  3. SWE-Pro 56.22% 追平 GPT-5.3 Codex;SWE-bench Verified 78% 碾壓 Opus 4.6(55%)
  4. API 價格:輸入 $0.30/M、輸出 $1.20/M——50 倍便宜於 Opus,25 倍便宜於 GPT-5
  5. 已開源,支援 Claude Code、Cursor、Kilo Code 等主流開發工具

🏢 MiniMax 是誰?3 分鐘搞懂這家公司

MiniMax 由前商湯科技副總裁閆俊傑於 2021 年底在上海創立。投資人陣容豪華:米哈遊、阿里巴巴、騰訊、高瓴、紅杉中國、IDG。

2026 年 1 月,MiniMax 在香港上市,首日暴漲 109%,市值突破千億港元(約 128 億美元),是近四年香港唯一首日翻倍的科技 IPO。36 歲的閆俊傑身價飆升至 32 億美元。

這家公司的特色是:用最少的資源做出最接近頂級的模型。M2.7 是這個哲學的極致體現。


🧬 什麼是「自我進化」?為什麼這很重要

傳統模型訓練 vs. M2.7 的自我進化

傳統的 AI 模型訓練完全由人類研究員主導——設計實驗、跑 benchmark、分析結果、調參數,每一步都需要人工介入。

M2.7 不一樣。MiniMax 設計了一套內部流程,讓模型自己參與自己的訓練

步驟傳統做法M2.7 自我進化
分析失敗模式人類看 log模型自己讀 log
規劃修改方向研究員開會討論模型自主決策
更新程式碼手動修改模型自己改
跑評估測試人類啟動 pipeline模型自動觸發
比較結果人類分析圖表模型自己判斷保留或丟棄

在訓練過程中,M2.7 自主執行了超過 100 輪這樣的完整迭代循環,在內部評估上實現了 30% 的效能提升

這代表什麼?

簡單說:AI 開始能幫自己變強了。M2.7 處理了 30-50% 的強化學習研究流程——包括文獻回顧、數據管線管理、實驗監控、除錯和 log 分析。

這不是「AI 覺醒」的科幻劇情。這是工程上的務實做法:讓 AI 處理訓練流程中重複性高、規則明確的部分,讓人類研究員專注在最需要創意和判斷力的決策上。


📊 跑分比較:10B 活躍參數打出什麼成績

軟體工程能力

BenchmarkM2.7Claude Opus 4.6GPT-5.3 Codex
SWE-Pro56.22%~57%56.2%
SWE-bench Verified78%55%
VIBE-Pro(完整專案交付)55.6%
Terminal Bench 257.0%

重點解讀:SWE-Pro 上 M2.7 幾乎追平 Opus 和 Codex。而在 SWE-bench Verified(更貼近真實 bug 修復的測試)上,M2.7 的 78% 大幅超越 Opus 的 55%。

辦公生產力

BenchmarkM2.7說明
GDPval-AA ELO1495開源模型最高分
技能遵循率(40 項複雜任務)97%超過 2,000 token 的多步驟任務
MM Claw(Agent 評估)62.7%接近 Sonnet 4.6 水準

機器學習競賽

BenchmarkM2.7Gemini 3.1GPT-5.4
MLE-Bench Lite(獎牌率)66.6%66.6%71.2%

M2.7 在 22 場 ML 競賽中拿下 9 面金牌,獎牌率追平 Google Gemini 3.1,僅次於 GPT-5.4。


⚡ 速度與成本:真正的殺手鐧

開源 = 自架免費,API = 託管服務

先釐清一個常見誤解:M2.7 已完全開源,模型權重可免費下載。 如果你有足夠的 GPU,自行部署不需要付任何授權費——跟 Linux 一樣,軟體免費,硬體自備。

但不是每個人都想自己管 GPU。MiniMax 同時提供了託管 API 服務,幫你跑模型、管基礎架構,按用量收費。下面的價格比較,指的都是這種「託管 API」的費用,不是模型本身的授權費。

API 託管價格比較

項目M2.7(API)Claude Opus 4.6GPT-5.4
輸入價格$0.30/M tokens$15/M tokens$2.50/M tokens
輸出價格$1.20/M tokens$75/M tokens$10/M tokens
快取後混合成本$0.06/M tokens
推理速度100 TPS~33 TPS~40 TPS
活躍參數10B未公開未公開
自架成本$0(需自備 GPU)❌ 不可自架❌ 不可自架

換算一下:就算用 API 託管,M2.7 的輸入價格也只有 Opus 的 1/50,輸出是 1/60。速度還快 3 倍。自架的話,邊際成本趨近於零——這是閉源模型做不到的。

Kilo Code 的實測報告指出:M2.7 交付了 Opus 4.6 約 90% 的品質,但總任務成本只有 Opus 的 7%

兩個 API 版本

版本特性適合
M2.7 標準版均衡性能一般開發、Agent 任務
M2.7 Highspeed更低延遲,結果相同即時互動、對延遲敏感的應用

💡 自架 vs. API 怎麼選? 230B 參數的完整模型需要多張高階 GPU(估計 4-8 張 A100 80GB 以上)。如果你只是個人開發者或中小團隊,直接用 API 最划算。如果你是有 GPU 叢集的企業、有資料合規需求、或推理量大到 API 費用不划算,才值得考慮自架。


🏗️ 架構解析:為什麼 10B 就夠用

M2.7 採用 Sparse Mixture-of-Experts(稀疏混合專家) 架構:

  • 總參數:230B
  • 活躍參數:每次推理僅啟用 10B(全部的 4.3%)
  • 專家數量:256 個
  • 層數:62 層
  • Hidden Size:3,072
  • 上下文窗口:204,800 tokens(約 20 萬)

MoE 的核心概念:不是所有參數都參與每次計算。每個 token 只會「激活」最相關的幾個專家模組,其餘保持休眠。這讓模型擁有大模型的知識廣度,但只付出小模型的計算成本。

DeepSeek V4 也用了類似的 MoE 架構,這已經成為 2026 年高效能模型的主流設計範式。


🔧 開發者生態:不只是 API

M2.7 已經整合進主流開發工具鏈:

工具支援狀態
Claude Code✅ 可用
Cursor✅ 可用
Kilo Code✅ 可用(有實測報告)
Cline✅ 可用
Codex CLI✅ 可用
Roo Code✅ 可用
TRAE✅ 可用

Agent 能力亮點

M2.7 原生支援多 Agent 協作,不是靠 prompt 硬塞角色分工,而是訓練階段就內建了:

  • 角色邊界維持 — 在多 Agent 場景中保持身份一致性
  • 對抗推理 — 能挑戰隊友的錯誤判斷
  • 協議遵循 — 原生支援 MCP 等 Agent 通訊協議
  • 狀態機管理 — 在複雜的多步驟任務中自主決策

更多 Agent 生態系的全景,請看 Agentic AI 趨勢總覽


🛠️ 實戰教學:怎麼開始用 M2.7

M2.7 有三種使用方式,從最簡單到最硬核排列:

方式一:用 API(最簡單,5 分鐘上手)

適合:個人開發者、想快速試用、不想管 GPU

Step 1:申請 API Key

MiniMax 開發者平台 註冊帳號,進入 API Keys 頁面產生金鑰。複製後立刻存好——頁面關掉就看不到完整金鑰了。

Step 2:用 Python 呼叫

M2.7 的 API 相容 OpenAI 和 Anthropic SDK 格式,不需要學新的 SDK:

# 方法 A:用 Anthropic SDK(推薦)
from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.minimax.io/anthropic",
    api_key="你的_MINIMAX_API_KEY"
)

response = client.messages.create(
    model="MiniMax-M2.7",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "用 Python 寫一個快速排序"}
    ]
)
print(response.content[0].text)
# 方法 B:用 OpenAI SDK
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key="你的_MINIMAX_API_KEY"
)

response = client.chat.completions.create(
    model="MiniMax-M2.7",
    messages=[
        {"role": "user", "content": "用 Python 寫一個快速排序"}
    ]
)
print(response.choices[0].message.content)

💡 已經在用 OpenAI 或 Anthropic SDK 的專案?只需要改 base_urlapi_key,其他程式碼幾乎不用動。


方式二:接進你的開發工具(推薦開發者)

適合:日常用 Claude Code / Cursor / VS Code 寫程式的人

Claude Code 設定

編輯 ~/.claude/settings.json

{
  "env": {
    "ANTHROPIC_BASE_URL": "https://api.minimax.io/anthropic",
    "ANTHROPIC_AUTH_TOKEN": "你的_MINIMAX_API_KEY",
    "ANTHROPIC_MODEL": "MiniMax-M2.7",
    "API_TIMEOUT_MS": "3000000"
  }
}

設定完重啟 Claude Code 就能用了。

Cursor 設定

  1. 打開 Settings → Models
  2. 啟用 Override OpenAI Base URL
  3. Base URL 填 https://api.minimax.io/v1
  4. API Key 填你的 MiniMax 金鑰
  5. 新增自訂模型 MiniMax-M2.7 並啟用

Kilo Code / Cline / Roo Code

這些 VS Code 擴充都支援自訂 API Provider:

  1. 在擴充設定中選 API Provider → MiniMax(或自訂 OpenAI Compatible)
  2. Endpoint 填 https://api.minimax.io/v1
  3. 貼上 API Key
  4. 模型名稱填 MiniMax-M2.7

方式三:自架部署(進階,需要 GPU)

適合:企業、有資料合規需求、大量推理需求

硬體需求

這是重點——M2.7 雖然只有 10B 活躍參數,但完整模型權重是 230B,載入記憶體需要約 220 GB:

配置GPU 規格總 VRAM支援上下文長度適合
入門配置4x A100 80GB320 GB~400K tokens一般推理、中等並發
推薦配置4x H100 80GB320 GB~400K tokens更快推理速度
高階配置4x H200 141GB564 GB~400K tokens更大 batch size
全量配置8x H100/H200640-1128 GB最高 3M tokens超長上下文、高並發

⚠️ 消費級顯卡跑不動。 就算是 RTX 4090(24GB VRAM),4 張加起來也只有 96GB,遠不夠載入 220GB 的模型權重。自架 M2.7 是企業級場景,個人用戶直接用 API。

用 vLLM 部署(推薦)

# 4 卡部署
SAFETENSORS_FAST_GPU=1 vllm serve \
  MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
  --tensor-parallel-size 4 \
  --enable-auto-tool-choice --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2_append_think

# 8 卡部署(支援更長上下文)
SAFETENSORS_FAST_GPU=1 vllm serve \
  MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
  --enable_expert_parallel --tensor-parallel-size 8 \
  --enable-auto-tool-choice --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2_append_think

vLLM 會自動從 Hugging Face 下載模型權重並快取。首次啟動需要較長時間下載(模型檔案約 440GB)。

用 Ollama Cloud(折衷方案)

如果你不想管 GPU 但也不想直接用 MiniMax API,Ollama 提供了雲端方案:

ollama run minimax-m2.7:cloud

這本質上還是雲端推理,但透過 Ollama 的統一介面操作,方便在不同模型間切換。


三種方式總結

方式成本難度適合誰
API$0.30/M tokens⭐ 簡單個人開發者、快速試用
開發工具整合同 API⭐⭐ 中等日常寫程式的開發者
自架部署GPU 硬體成本⭐⭐⭐⭐ 進階企業、資料合規、大量推理

🎯 我該用 M2.7 嗎?選擇指南

💡 選擇建議

  • 預算有限但需要接近頂級的程式碼能力 → M2.7 是目前性價比最高的選擇
  • 需要最高品質的推理和寫作 → Claude Opus 4.6 仍然是天花板
  • 大量 Agent 任務、成本敏感 → M2.7 的 50 倍價格優勢在規模化時非常顯著
  • 企業合規、資料不出境 → M2.7 已開源,可自行部署
  • 想先試試 → 直接用 MiniMax API,$0.30/M 的門檻幾乎等於免費

什麼時候不該選 M2.7

  • 需要超長上下文(100 萬 Token)→ GPT-5.4 或 DeepSeek V4
  • 需要最強的多模態能力(影像、音訊) → 目前 M2.7 主要專注文字和程式碼
  • 需要最高的 AI Agent 編排穩定性 → Claude Managed Agents 提供全託管方案

完整模型比較請看 GPT vs Claude vs Gemini 終極比較


🌊 產業衝擊:定價權之戰

M2.7 的出現有三層意義:

1. 開源模型正式進入「夠用」區間

過去開源模型是「便宜但差一截」。M2.7 在 SWE-bench Verified 上甚至超越 Opus——這改變了遊戲規則。對大多數應用場景,「90% 品質、7% 成本」已經足夠好了。

2. MoE 架構成為新常態

DeepSeek V4、M2.7 都證明:用稀疏激活把大模型的成本壓到小模型的水準,是可行的。這會加速整個產業往 MoE 轉型。

3. 自我進化不再是論文概念

M2.7 是第一個在量產模型中實踐自我進化的案例。當 AI 能處理自己 30-50% 的訓練流程,模型迭代的速度會指數級加快。這對所有 AI 公司都是警訊——你的競爭對手不只有其他公司的工程師,還有他們的 AI。


⚠️ 跑分亮眼,但要帶著意識看

M2.7 的 benchmark 數字確實搶眼,但在照單全收之前,有幾個值得留意的背景脈絡:

Benchmark 灌水的產業通病

這不是中國模型獨有的問題——所有 AI 公司都有動機讓自家模型在 benchmark 上好看。常見的手法包括:在訓練資料中混入測試題(data contamination)、挑選對自己有利的 benchmark 組合、或是用特定 prompt 格式跑出最佳成績。OpenAI、Google 也曾被質疑過類似問題。

但客觀來說,中國 AI 模型在這方面受到的質疑更多,主要原因有三:

質疑點說明反駁
第三方驗證較少多數 benchmark 由模型開發者自行公布M2.7 有 Kilo Code、Artificial Analysis 等第三方實測
訓練資料不透明開源模型權重 ≠ 開源訓練流程但閉源模型(GPT、Claude)的訓練資料同樣不透明
選擇性公布只秀最好看的 benchmark每家公司都這樣,這是行銷,不是造假

第三方實測怎麼說

值得注意的是,M2.7 確實有一些非官方的獨立驗證

  • Kilo Code 實測:在真實 coding 任務中交付 Opus 約 90% 品質(不是跑 benchmark,是實際完成任務)
  • Artificial Analysis 智力指數 v4.0:M2.7 得分 50,仍落後 Gemini 3.1 Pro 和 GPT-5.4(57)、Opus 4.6(53)、Sonnet 4.6(52)
  • PinchBench:86.2%,全球第五,距離 Opus 4.6 僅差 1.2 個百分點

Artificial Analysis 的排名比較有參考價值——因為它是用統一標準測所有模型,不是各家自報成績。從這個角度看,M2.7 確實強,但並沒有超越 Opus 或 GPT-5.4,更接近「以極低成本逼近頂級」。

我的建議

跑分當參考,實測定生死。 如果你考慮在生產環境使用 M2.7,建議:

  1. 用你自己的真實任務測(不是跑公開 benchmark)
  2. 和你目前在用的模型做 A/B 比較
  3. 先在非關鍵任務上跑一陣子,觀察穩定度

M2.7 的開源特性讓你可以零成本試用——這本身就是最好的驗證方式。


❓ FAQ

M2.7 的「自我進化」會不會失控?

不會。M2.7 的自我進化是在嚴格限制的框架內運作的——它只能在指定的訓練管線中執行預定義的操作(讀 log、調參數、跑測試)。它沒有能力修改自己的目標函數或突破框架限制。這更像是「自動化測試 + 自動化調參」,而非科幻片裡的自我意識覺醒。

10B 活躍參數真的夠用嗎?

從跑分來看,答案是肯定的。MoE 架構的精髓在於:230B 的總參數提供了廣泛的知識覆蓋,而每次推理只啟用最相關的 10B 參數。這就像一個擁有 256 位專家的顧問團隊——每次任務只派最適合的幾位上場,但背後有整個團隊的知識庫支撐。

M2.7 中文能力怎麼樣?

MiniMax 是中國公司,M2.7 的中文訓練資料比例較高。在中文辦公任務(Excel 公式、PPT 排版、Word 編輯)上,GDPval-AA 拿到開源模型最高的 ELO 1495 分。對需要中文處理能力的使用者來說,這是一個有力的選擇。

開源版和 API 版有差別嗎?

模型權重完全相同。差別在於你是用 MiniMax 的雲端跑(API,$0.30/M tokens)還是自己部署。自行部署需要足夠的 GPU 資源來載入 230B 參數的完整模型,適合有隱私合規需求或大量推理需求的企業。

M2.7 和 DeepSeek V4 怎麼選?

兩者都是開源的中國 MoE 模型,但定位不同。DeepSeek V4 有 1 兆參數和 100 萬 Token 上下文,走的是「全面超大」路線。M2.7 只有 230B 參數但活躍參數更少(10B vs DeepSeek 的 37B),走的是「極致效率」路線。如果你需要超長上下文和多模態,選 DeepSeek;如果你追求最低成本和最快速度,選 M2.7。

📚 延伸閱讀