MiniMax-M2.5

Minmax模型

字体:

MiniMax-M2.5 是上海MiniMax公司于2026年2月12日推出的“原生Agent生产级”大语言模型,定位为专为智能体(Agent)场景深度优化的高性能、低成本文本模型。它在编程、工具调用、办公自动化等生产力场景中达到行业SOTA(当前最优)水平,同时将推理成本压缩至主流模型的1/10~1/20,真正实现了复杂智能体长期运行的经济可行性。

核心能力与技术亮点

  1. ‌编程能力:像架构师一样思考‌
    M2.5在权威软件工程评测 ‌SWE-Bench Verified‌ 中得分 ‌80.2%‌,超越Claude Opus 4.6(79.6%),接近GPT-5水平。更关键的是,它展现出“原生Spec能力”——在编码前能主动拆解系统架构、功能模块与UI设计,实现从0到1的完整规划,而非仅修复代码片段。

    • 支持 ‌10+编程语言‌(Python、Java、C++、Rust、Go、TS等)

    • 覆盖 ‌全栈开发流程‌:系统设计 → 核心开发 → 功能迭代 → 代码审查与测试

    • 在 ‌Multi-SWE-Bench‌(多语言复杂任务)中以 ‌51.3%‌ 的得分位列全球第一

  2. ‌智能体任务效率显著提升‌

    • 在 ‌BrowseComp‌(智能体浏览任务)中得分为 ‌76.3%‌,较前代M2.1提升约20%

    • 工具调用与搜索任务中,轮次消耗减少约20%,决策路径更精简

    • 端到端任务执行时间从M2.1的31.3分钟缩短至 ‌22.8分钟‌,提速37%

  3. ‌办公场景专业交付能力‌
    与金融、法律、社科领域专家合作训练,可输出符合行业标准的:

    • ‌Word研报‌(结构规范、数据准确)

    • ‌PPT方案‌(逻辑清晰、视觉合理)

    • ‌Excel财务模型‌(公式严谨、可复用)
      在内部评测框架 ‌GDPval-MM‌ 中,对主流模型取得 ‌59.0%‌ 的平均胜率

  4. ‌极致推理速度与成本控制‌

    • 每秒100 token:‌1美元/小时‌

    • 每秒50 token:‌0.3美元/小时‌
      换算下来,‌1万美元预算可支撑4个智能体全年无休运行‌

    • ‌M2.5-lightning‌ 版本支持 ‌100 TPS‌(每秒输出100个token),约为主流模型的2倍

    • 推理成本极低:

  5. ‌SQL与数据库能力突出‌
    在企业级SQL任务中表现优异:

    • 国产数据库方言转换得分 ‌88.5‌,逻辑等价性达 ‌74.2‌

    • 语法纠错与优化能力接近业界领先水平,适用于信创迁移场景

技术架构与训练方法

  • ‌MoE混合专家架构‌:总参数量 ‌229B‌,推理时仅激活 ‌10B‌ 参数,实现高效稀疏计算

  • ‌自研Forge强化学习框架‌:通过解耦训练引擎与智能体,实现约 ‌40倍训练加速‌,推动模型快速迭代

  • ‌CISPO优化与过程奖励机制‌:缓解长上下文信用分配问题,将“任务真实耗时”纳入奖励函数,平衡效果与响应速度

部署与生态支持

  • ‌全球开源‌:2026年2月13日宣布开源权重,支持本地化部署

  • ‌API服务‌:已接入阿里云百炼平台,支持OpenAI兼容调用

  • ‌社区活跃‌:发布12小时内登顶OpenRouter热度榜,一周内调用量达 ‌3.07万亿tokens‌,超过Kimi、GLM-5与DeepSeek V3.2之和

  • ‌实际应用‌:MiniMax内部 ‌30%‌ 的任务由M2.5自主完成,编程场景中 ‌80%‌ 的新代码由其生成


立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能