MiniMax-M1
Minmax模型
MiniMax-M1是上海AI企业MiniMax(稀宇科技)于2025年6月17日在世界人工智能大会(WAIC)上发布的全球首个开源大规模混合架构推理模型,标志着国产大模型在长文本处理、推理效率与成本控制方面实现重大突破。
核心参数与架构创新
超大规模混合专家架构(MoE)
模型总参数量达4560亿,采用混合门控专家(Mixture-of-Experts, MoE)架构,每个Token仅激活459亿参数,实现稀疏激活,大幅降低计算开销。百万级上下文支持
原生支持100万Token输入,与谷歌Gemini 2.5 Pro持平,是DeepSeek R1的8倍,可一次性处理整本书籍、大型代码库或超长法律文书。8万Token推理输出能力
支持最长8万Token的推理输出长度,在开源模型中处于领先地位,适用于复杂逻辑推演、长篇内容生成等任务。闪电注意力机制(Lightning Attention)
创新性地将传统注意力拆分为“块内”与“块间”两部分,前者用于局部上下文整合,后者采用线性注意力进行全局摘要,突破Transformer平方复杂度限制,显著提升长文本处理效率。性能表现与基准测试
软件工程能力(SWE-bench Verified)
MiniMax-M1-40k和M1-80k分别取得55.6%和56.0%的任务解决率,在开源模型中领先,显著超越Qwen3-235B等同类模型。长上下文理解(MRCR)
在百万Token长度测试中得分为56.2%,超越OpenAI o3和Claude 4 Opus,全球排名第二,仅次于Gemini 2.5 Pro。智能体工具调用(TAU-bench)
M1-40k在工具使用场景中表现卓越,甚至优于Gemini 2.5 Pro,成为Agent时代首选基座模型。数学推理能力
在AIME 2024上达到86.0%准确率,在MATH-500基准上高达96.8%,展现强大逻辑推导能力训练效率与成本优势
强化学习算法CISPO
提出新型强化学习算法CISPO,通过裁剪重要性采样权重而非直接更新Token,使训练收敛速度提升一倍,优于DAPO、GRPO等主流算法。高效训练流程
仅使用512块H800 GPU训练三周,租赁成本约53.5万美元(约合380万人民币),相比同类模型降低一个数量级。推理算力节省
在生成10万Token内容时,所需FLOPs仅为DeepSeek R1的25%;进行8万Token深度推理时,算力消耗约为竞品的30%。应用场景与部署支持
生产力复杂任务
适用于软件开发、法律文书分析、科研论文综述、企业知识库构建等需长上下文与深度推理的场景。
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能