MiniMax-M2.5
Minmax模型
MiniMax-M2.5 是上海MiniMax公司于2026年2月12日推出的“原生Agent生产级”大语言模型,定位为专为智能体(Agent)场景深度优化的高性能、低成本文本模型。它在编程、工具调用、办公自动化等生产力场景中达到行业SOTA(当前最优)水平,同时将推理成本压缩至主流模型的1/10~1/20,真正实现了复杂智能体长期运行的经济可行性。
核心能力与技术亮点
编程能力:像架构师一样思考
M2.5在权威软件工程评测 SWE-Bench Verified 中得分 80.2%,超越Claude Opus 4.6(79.6%),接近GPT-5水平。更关键的是,它展现出“原生Spec能力”——在编码前能主动拆解系统架构、功能模块与UI设计,实现从0到1的完整规划,而非仅修复代码片段。支持 10+编程语言(Python、Java、C++、Rust、Go、TS等)
覆盖 全栈开发流程:系统设计 → 核心开发 → 功能迭代 → 代码审查与测试
在 Multi-SWE-Bench(多语言复杂任务)中以 51.3% 的得分位列全球第一
智能体任务效率显著提升
在 BrowseComp(智能体浏览任务)中得分为 76.3%,较前代M2.1提升约20%
工具调用与搜索任务中,轮次消耗减少约20%,决策路径更精简
端到端任务执行时间从M2.1的31.3分钟缩短至 22.8分钟,提速37%
办公场景专业交付能力
与金融、法律、社科领域专家合作训练,可输出符合行业标准的:Word研报(结构规范、数据准确)
PPT方案(逻辑清晰、视觉合理)
Excel财务模型(公式严谨、可复用)
在内部评测框架 GDPval-MM 中,对主流模型取得 59.0% 的平均胜率极致推理速度与成本控制
每秒100 token:1美元/小时
每秒50 token:0.3美元/小时
换算下来,1万美元预算可支撑4个智能体全年无休运行M2.5-lightning 版本支持 100 TPS(每秒输出100个token),约为主流模型的2倍
推理成本极低:
SQL与数据库能力突出
在企业级SQL任务中表现优异:国产数据库方言转换得分 88.5,逻辑等价性达 74.2
语法纠错与优化能力接近业界领先水平,适用于信创迁移场景
技术架构与训练方法
MoE混合专家架构:总参数量 229B,推理时仅激活 10B 参数,实现高效稀疏计算
自研Forge强化学习框架:通过解耦训练引擎与智能体,实现约 40倍训练加速,推动模型快速迭代
CISPO优化与过程奖励机制:缓解长上下文信用分配问题,将“任务真实耗时”纳入奖励函数,平衡效果与响应速度
部署与生态支持
全球开源:2026年2月13日宣布开源权重,支持本地化部署
API服务:已接入阿里云百炼平台,支持OpenAI兼容调用
社区活跃:发布12小时内登顶OpenRouter热度榜,一周内调用量达 3.07万亿tokens,超过Kimi、GLM-5与DeepSeek V3.2之和
实际应用:MiniMax内部 30% 的任务由M2.5自主完成,编程场景中 80% 的新代码由其生成
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能