🧬 MiniMax M2.7：會自我進化的 AI 模型，性能追平 Claude 和 GPT，成本只要 2%

MiniMax M2.7 開源登場——230B 參數 MoE 架構、自主完成 30-50% 訓練流程、SWE-Pro 追平 GPT-5.3 Codex，API 價格卻只有 Opus 的五十分之一。完整解析架構、跑分、定價與產業衝擊。

發布：2026-04-12

2026 年 4 月 12 日，中國 AI 公司 MiniMax 正式開源 M2.7 模型。 這個只有 10B 活躍參數的「小」模型，在軟體工程跑分上追平了 GPT-5.3 Codex，部分指標甚至超越 Claude Opus 4.6——而 API 價格只有後者的五十分之一。

更讓業界驚訝的是：M2.7 在訓練過程中自主完成了 30-50% 的強化學習研究流程。AI 不只在幫人類寫程式碼，已經開始幫自己「練功」了。

🔑 5 個關鍵重點

230B 參數 MoE 架構，僅 10B 活躍參數——推理速度 100 TPS，比 Opus 快 3 倍

全球首個量產的「自我進化」模型——自主跑了 100+ 輪自我優化迭代

SWE-Pro 56.22% 追平 GPT-5.3 Codex；SWE-bench Verified 78% 碾壓 Opus 4.6（55%）

API 價格：輸入 $0.30/M、輸出 $1.20/M——50 倍便宜於 Opus，25 倍便宜於 GPT-5

已開源，支援 Claude Code、Cursor、Kilo Code 等主流開發工具

🏢 MiniMax 是誰？3 分鐘搞懂這家公司

MiniMax 由前商湯科技副總裁閆俊傑於 2021 年底在上海創立。投資人陣容豪華：米哈遊、阿里巴巴、騰訊、高瓴、紅杉中國、IDG。

2026 年 1 月，MiniMax 在香港上市，首日暴漲 109%，市值突破千億港元（約 128 億美元），是近四年香港唯一首日翻倍的科技 IPO。36 歲的閆俊傑身價飆升至 32 億美元。

這家公司的特色是：用最少的資源做出最接近頂級的模型。M2.7 是這個哲學的極致體現。

🧬 什麼是「自我進化」？為什麼這很重要

傳統模型訓練 vs. M2.7 的自我進化

傳統的 AI 模型訓練完全由人類研究員主導——設計實驗、跑 benchmark、分析結果、調參數，每一步都需要人工介入。

M2.7 不一樣。MiniMax 設計了一套內部流程，讓模型自己參與自己的訓練：

步驟	傳統做法	M2.7 自我進化
分析失敗模式	人類看 log	模型自己讀 log
規劃修改方向	研究員開會討論	模型自主決策
更新程式碼	手動修改	模型自己改
跑評估測試	人類啟動 pipeline	模型自動觸發
比較結果	人類分析圖表	模型自己判斷保留或丟棄

在訓練過程中，M2.7 自主執行了超過 100 輪這樣的完整迭代循環，在內部評估上實現了 30% 的效能提升。

這代表什麼？

簡單說：AI 開始能幫自己變強了。M2.7 處理了 30-50% 的強化學習研究流程——包括文獻回顧、數據管線管理、實驗監控、除錯和 log 分析。

這不是「AI 覺醒」的科幻劇情。這是工程上的務實做法：讓 AI 處理訓練流程中重複性高、規則明確的部分，讓人類研究員專注在最需要創意和判斷力的決策上。

📊 跑分比較：10B 活躍參數打出什麼成績

軟體工程能力

Benchmark	M2.7	Claude Opus 4.6	GPT-5.3 Codex
SWE-Pro	56.22%	~57%	56.2%
SWE-bench Verified	78%	55%	—
VIBE-Pro（完整專案交付）	55.6%	—	—
Terminal Bench 2	57.0%	—	—

重點解讀：SWE-Pro 上 M2.7 幾乎追平 Opus 和 Codex。而在 SWE-bench Verified（更貼近真實 bug 修復的測試）上，M2.7 的 78% 大幅超越 Opus 的 55%。

辦公生產力

Benchmark	M2.7	說明
GDPval-AA ELO	1495	開源模型最高分
技能遵循率（40 項複雜任務）	97%	超過 2,000 token 的多步驟任務
MM Claw（Agent 評估）	62.7%	接近 Sonnet 4.6 水準

機器學習競賽

Benchmark	M2.7	Gemini 3.1	GPT-5.4
MLE-Bench Lite（獎牌率）	66.6%	66.6%	71.2%

M2.7 在 22 場 ML 競賽中拿下 9 面金牌，獎牌率追平 Google Gemini 3.1，僅次於 GPT-5.4。

⚡ 速度與成本：真正的殺手鐧

開源 = 自架免費，API = 託管服務

先釐清一個常見誤解：M2.7 已完全開源，模型權重可免費下載。 如果你有足夠的 GPU，自行部署不需要付任何授權費——跟 Linux 一樣，軟體免費，硬體自備。

但不是每個人都想自己管 GPU。MiniMax 同時提供了託管 API 服務，幫你跑模型、管基礎架構，按用量收費。下面的價格比較，指的都是這種「託管 API」的費用，不是模型本身的授權費。

API 託管價格比較

項目	M2.7（API）	Claude Opus 4.6	GPT-5.4
輸入價格	$0.30/M tokens	$15/M tokens	$2.50/M tokens
輸出價格	$1.20/M tokens	$75/M tokens	$10/M tokens
快取後混合成本	$0.06/M tokens	—	—
推理速度	100 TPS	~33 TPS	~40 TPS
活躍參數	10B	未公開	未公開
自架成本	$0（需自備 GPU）	❌ 不可自架	❌ 不可自架

換算一下：就算用 API 託管，M2.7 的輸入價格也只有 Opus 的 1/50，輸出是 1/60。速度還快 3 倍。自架的話，邊際成本趨近於零——這是閉源模型做不到的。

Kilo Code 的實測報告指出：M2.7 交付了 Opus 4.6 約 90% 的品質，但總任務成本只有 Opus 的 7%。

兩個 API 版本

版本	特性	適合
M2.7 標準版	均衡性能	一般開發、Agent 任務
M2.7 Highspeed	更低延遲，結果相同	即時互動、對延遲敏感的應用

💡 自架 vs. API 怎麼選？ 230B 參數的完整模型需要多張高階 GPU（估計 4-8 張 A100 80GB 以上）。如果你只是個人開發者或中小團隊，直接用 API 最划算。如果你是有 GPU 叢集的企業、有資料合規需求、或推理量大到 API 費用不划算，才值得考慮自架。

🏗️ 架構解析：為什麼 10B 就夠用

M2.7 採用 Sparse Mixture-of-Experts（稀疏混合專家） 架構：

總參數：230B
活躍參數：每次推理僅啟用 10B（全部的 4.3%）
專家數量：256 個
層數：62 層
Hidden Size：3,072
上下文窗口：204,800 tokens（約 20 萬）

MoE 的核心概念：不是所有參數都參與每次計算。每個 token 只會「激活」最相關的幾個專家模組，其餘保持休眠。這讓模型擁有大模型的知識廣度，但只付出小模型的計算成本。

DeepSeek V4 也用了類似的 MoE 架構，這已經成為 2026 年高效能模型的主流設計範式。

🔧 開發者生態：不只是 API

M2.7 已經整合進主流開發工具鏈：

工具	支援狀態
Claude Code	✅ 可用
Cursor	✅ 可用
Kilo Code	✅ 可用（有實測報告）
Cline	✅ 可用
Codex CLI	✅ 可用
Roo Code	✅ 可用
TRAE	✅ 可用

Agent 能力亮點

M2.7 原生支援多 Agent 協作，不是靠 prompt 硬塞角色分工，而是訓練階段就內建了：

角色邊界維持 — 在多 Agent 場景中保持身份一致性
對抗推理 — 能挑戰隊友的錯誤判斷
協議遵循 — 原生支援 MCP 等 Agent 通訊協議
狀態機管理 — 在複雜的多步驟任務中自主決策

更多 Agent 生態系的全景，請看 Agentic AI 趨勢總覽。

🛠️ 實戰教學：怎麼開始用 M2.7

M2.7 有三種使用方式，從最簡單到最硬核排列：

方式一：用 API（最簡單，5 分鐘上手）

適合：個人開發者、想快速試用、不想管 GPU

Step 1：申請 API Key

到 MiniMax 開發者平台註冊帳號，進入 API Keys 頁面產生金鑰。複製後立刻存好——頁面關掉就看不到完整金鑰了。

Step 2：用 Python 呼叫

M2.7 的 API 相容 OpenAI 和 Anthropic SDK 格式，不需要學新的 SDK：

# 方法 A：用 Anthropic SDK（推薦）
from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.minimax.io/anthropic",
    api_key="你的_MINIMAX_API_KEY"
)

response = client.messages.create(
    model="MiniMax-M2.7",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "用 Python 寫一個快速排序"}
    ]
)
print(response.content[0].text)

# 方法 B：用 OpenAI SDK
from openai import OpenAI

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key="你的_MINIMAX_API_KEY"
)

response = client.chat.completions.create(
    model="MiniMax-M2.7",
    messages=[
        {"role": "user", "content": "用 Python 寫一個快速排序"}
    ]
)
print(response.choices[0].message.content)

💡 已經在用 OpenAI 或 Anthropic SDK 的專案？只需要改 base_url 和 api_key，其他程式碼幾乎不用動。

方式二：接進你的開發工具（推薦開發者）

適合：日常用 Claude Code / Cursor / VS Code 寫程式的人

Claude Code 設定

編輯 ~/.claude/settings.json：

{
  "env": {
    "ANTHROPIC_BASE_URL": "https://api.minimax.io/anthropic",
    "ANTHROPIC_AUTH_TOKEN": "你的_MINIMAX_API_KEY",
    "ANTHROPIC_MODEL": "MiniMax-M2.7",
    "API_TIMEOUT_MS": "3000000"
  }
}

設定完重啟 Claude Code 就能用了。

Cursor 設定

打開 Settings → Models
啟用 Override OpenAI Base URL
Base URL 填 https://api.minimax.io/v1
API Key 填你的 MiniMax 金鑰
新增自訂模型 MiniMax-M2.7 並啟用

Kilo Code / Cline / Roo Code

這些 VS Code 擴充都支援自訂 API Provider：

在擴充設定中選 API Provider → MiniMax（或自訂 OpenAI Compatible）
Endpoint 填 https://api.minimax.io/v1
貼上 API Key
模型名稱填 MiniMax-M2.7

方式三：自架部署（進階，需要 GPU）

適合：企業、有資料合規需求、大量推理需求

硬體需求

這是重點——M2.7 雖然只有 10B 活躍參數，但完整模型權重是 230B，載入記憶體需要約 220 GB：

配置	GPU 規格	總 VRAM	支援上下文長度	適合
入門配置	4x A100 80GB	320 GB	~400K tokens	一般推理、中等並發
推薦配置	4x H100 80GB	320 GB	~400K tokens	更快推理速度
高階配置	4x H200 141GB	564 GB	~400K tokens	更大 batch size
全量配置	8x H100/H200	640-1128 GB	最高 3M tokens	超長上下文、高並發

⚠️ 消費級顯卡跑不動。 就算是 RTX 4090（24GB VRAM），4 張加起來也只有 96GB，遠不夠載入 220GB 的模型權重。自架 M2.7 是企業級場景，個人用戶直接用 API。

用 vLLM 部署（推薦）

# 4 卡部署
SAFETENSORS_FAST_GPU=1 vllm serve \
  MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
  --tensor-parallel-size 4 \
  --enable-auto-tool-choice --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2_append_think

# 8 卡部署（支援更長上下文）
SAFETENSORS_FAST_GPU=1 vllm serve \
  MiniMaxAI/MiniMax-M2.7 --trust-remote-code \
  --enable_expert_parallel --tensor-parallel-size 8 \
  --enable-auto-tool-choice --tool-call-parser minimax_m2 \
  --reasoning-parser minimax_m2_append_think

vLLM 會自動從 Hugging Face 下載模型權重並快取。首次啟動需要較長時間下載（模型檔案約 440GB）。

用 Ollama Cloud（折衷方案）

如果你不想管 GPU 但也不想直接用 MiniMax API，Ollama 提供了雲端方案：

ollama run minimax-m2.7:cloud

這本質上還是雲端推理，但透過 Ollama 的統一介面操作，方便在不同模型間切換。

三種方式總結

方式	成本	難度	適合誰
API	$0.30/M tokens	⭐ 簡單	個人開發者、快速試用
開發工具整合	同 API	⭐⭐ 中等	日常寫程式的開發者
自架部署	GPU 硬體成本	⭐⭐⭐⭐ 進階	企業、資料合規、大量推理

🎯 我該用 M2.7 嗎？選擇指南

💡 選擇建議

預算有限但需要接近頂級的程式碼能力 → M2.7 是目前性價比最高的選擇

需要最高品質的推理和寫作 → Claude Opus 4.6 仍然是天花板

大量 Agent 任務、成本敏感 → M2.7 的 50 倍價格優勢在規模化時非常顯著

企業合規、資料不出境 → M2.7 已開源，可自行部署

想先試試 → 直接用 MiniMax API，$0.30/M 的門檻幾乎等於免費

什麼時候不該選 M2.7

需要超長上下文（100 萬 Token）→ GPT-5.4 或 DeepSeek V4
需要最強的多模態能力（影像、音訊） → 目前 M2.7 主要專注文字和程式碼
需要最高的 AI Agent 編排穩定性 → Claude Managed Agents 提供全託管方案

完整模型比較請看 GPT vs Claude vs Gemini 終極比較。

🌊 產業衝擊：定價權之戰

M2.7 的出現有三層意義：

1. 開源模型正式進入「夠用」區間

過去開源模型是「便宜但差一截」。M2.7 在 SWE-bench Verified 上甚至超越 Opus——這改變了遊戲規則。對大多數應用場景，「90% 品質、7% 成本」已經足夠好了。

2. MoE 架構成為新常態

DeepSeek V4、M2.7 都證明：用稀疏激活把大模型的成本壓到小模型的水準，是可行的。這會加速整個產業往 MoE 轉型。

3. 自我進化不再是論文概念

M2.7 是第一個在量產模型中實踐自我進化的案例。當 AI 能處理自己 30-50% 的訓練流程，模型迭代的速度會指數級加快。這對所有 AI 公司都是警訊——你的競爭對手不只有其他公司的工程師，還有他們的 AI。

⚠️ 跑分亮眼，但要帶著意識看

M2.7 的 benchmark 數字確實搶眼，但在照單全收之前，有幾個值得留意的背景脈絡：

Benchmark 灌水的產業通病

這不是中國模型獨有的問題——所有 AI 公司都有動機讓自家模型在 benchmark 上好看。常見的手法包括：在訓練資料中混入測試題（data contamination）、挑選對自己有利的 benchmark 組合、或是用特定 prompt 格式跑出最佳成績。OpenAI、Google 也曾被質疑過類似問題。

但客觀來說，中國 AI 模型在這方面受到的質疑更多，主要原因有三：

質疑點	說明	反駁
第三方驗證較少	多數 benchmark 由模型開發者自行公布	M2.7 有 Kilo Code、Artificial Analysis 等第三方實測
訓練資料不透明	開源模型權重 ≠ 開源訓練流程	但閉源模型（GPT、Claude）的訓練資料同樣不透明
選擇性公布	只秀最好看的 benchmark	每家公司都這樣，這是行銷，不是造假

第三方實測怎麼說

值得注意的是，M2.7 確實有一些非官方的獨立驗證：

Kilo Code 實測：在真實 coding 任務中交付 Opus 約 90% 品質（不是跑 benchmark，是實際完成任務）
Artificial Analysis 智力指數 v4.0：M2.7 得分 50，仍落後 Gemini 3.1 Pro 和 GPT-5.4（57）、Opus 4.6（53）、Sonnet 4.6（52）
PinchBench：86.2%，全球第五，距離 Opus 4.6 僅差 1.2 個百分點

Artificial Analysis 的排名比較有參考價值——因為它是用統一標準測所有模型，不是各家自報成績。從這個角度看，M2.7 確實強，但並沒有超越 Opus 或 GPT-5.4，更接近「以極低成本逼近頂級」。

我的建議

跑分當參考，實測定生死。 如果你考慮在生產環境使用 M2.7，建議：

用你自己的真實任務測（不是跑公開 benchmark）
和你目前在用的模型做 A/B 比較
先在非關鍵任務上跑一陣子，觀察穩定度

M2.7 的開源特性讓你可以零成本試用——這本身就是最好的驗證方式。

❓ FAQ

M2.7 的「自我進化」會不會失控？

不會。M2.7 的自我進化是在嚴格限制的框架內運作的——它只能在指定的訓練管線中執行預定義的操作（讀 log、調參數、跑測試）。它沒有能力修改自己的目標函數或突破框架限制。這更像是「自動化測試 + 自動化調參」，而非科幻片裡的自我意識覺醒。

10B 活躍參數真的夠用嗎？

從跑分來看，答案是肯定的。MoE 架構的精髓在於：230B 的總參數提供了廣泛的知識覆蓋，而每次推理只啟用最相關的 10B 參數。這就像一個擁有 256 位專家的顧問團隊——每次任務只派最適合的幾位上場，但背後有整個團隊的知識庫支撐。

M2.7 中文能力怎麼樣？

MiniMax 是中國公司，M2.7 的中文訓練資料比例較高。在中文辦公任務（Excel 公式、PPT 排版、Word 編輯）上，GDPval-AA 拿到開源模型最高的 ELO 1495 分。對需要中文處理能力的使用者來說，這是一個有力的選擇。

開源版和 API 版有差別嗎？

模型權重完全相同。差別在於你是用 MiniMax 的雲端跑（API，$0.30/M tokens）還是自己部署。自行部署需要足夠的 GPU 資源來載入 230B 參數的完整模型，適合有隱私合規需求或大量推理需求的企業。

M2.7 和 DeepSeek V4 怎麼選？

兩者都是開源的中國 MoE 模型，但定位不同。DeepSeek V4 有 1 兆參數和 100 萬 Token 上下文，走的是「全面超大」路線。M2.7 只有 230B 參數但活躍參數更少（10B vs DeepSeek 的 37B），走的是「極致效率」路線。如果你需要超長上下文和多模態，選 DeepSeek；如果你追求最低成本和最快速度，選 M2.7。