MiniMax-M1

Minmax模型

字体:

MiniMax-M1是上海AI企业MiniMax(稀宇科技)于2025年6月17日在世界人工智能大会(WAIC)上发布的全球首个开源大规模混合架构推理模型,标志着国产大模型在长文本处理、推理效率与成本控制方面实现重大突破。

核心参数与架构创新

  1. ‌超大规模混合专家架构(MoE)‌
    模型总参数量达‌4560亿‌,采用混合门控专家(Mixture-of-Experts, MoE)架构,每个Token仅激活‌459亿参数‌,实现稀疏激活,大幅降低计算开销。

  2. ‌百万级上下文支持‌
    原生支持‌100万Token输入‌,与谷歌Gemini 2.5 Pro持平,是DeepSeek R1的8倍,可一次性处理整本书籍、大型代码库或超长法律文书。

  3. ‌8万Token推理输出能力‌
    支持最长‌8万Token的推理输出长度‌,在开源模型中处于领先地位,适用于复杂逻辑推演、长篇内容生成等任务。

  4. ‌闪电注意力机制(Lightning Attention)‌
    创新性地将传统注意力拆分为“块内”与“块间”两部分,前者用于局部上下文整合,后者采用线性注意力进行全局摘要,突破Transformer平方复杂度限制,显著提升长文本处理效率。

  5. 性能表现与基准测试

  6. ‌软件工程能力(SWE-bench Verified)‌
    MiniMax-M1-40k和M1-80k分别取得‌55.6%‌和‌56.0%‌的任务解决率,在开源模型中领先,显著超越Qwen3-235B等同类模型。

  7. ‌长上下文理解(MRCR)‌
    在百万Token长度测试中得分为‌56.2%‌,超越OpenAI o3和Claude 4 Opus,全球排名第二,仅次于Gemini 2.5 Pro。

  8. ‌智能体工具调用(TAU-bench)‌
    M1-40k在工具使用场景中表现卓越,甚至优于Gemini 2.5 Pro,成为Agent时代首选基座模型。

  9. ‌数学推理能力‌
    在AIME 2024上达到‌86.0%‌准确率,在MATH-500基准上高达‌96.8%‌,展现强大逻辑推导能力

  10. 训练效率与成本优势

  11. ‌强化学习算法CISPO‌
    提出新型强化学习算法CISPO,通过裁剪重要性采样权重而非直接更新Token,使训练收敛速度提升一倍,优于DAPO、GRPO等主流算法。

  12. ‌高效训练流程‌
    仅使用‌512块H800 GPU训练三周‌,租赁成本约‌53.5万美元‌(约合380万人民币),相比同类模型降低一个数量级。

  13. ‌推理算力节省‌
    在生成10万Token内容时,所需FLOPs仅为DeepSeek R1的‌25%‌;进行8万Token深度推理时,算力消耗约为竞品的‌30%‌。

  14. 应用场景与部署支持

  15. ‌生产力复杂任务‌
    适用于软件开发、法律文书分析、科研论文综述、企业知识库构建等需长上下文与深度推理的场景。


立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能