MiniMax-M1

Minmax模型

字体：大中小

MiniMax-M1是上海AI企业MiniMax（稀宇科技）于2025年6月17日在世界人工智能大会（WAIC）上发布的全球首个开源大规模混合架构推理模型，标志着国产大模型在长文本处理、推理效率与成本控制方面实现重大突破。

核心参数与架构创新

‌超大规模混合专家架构（MoE）‌
模型总参数量达‌4560亿‌，采用混合门控专家（Mixture-of-Experts, MoE）架构，每个Token仅激活‌459亿参数‌，实现稀疏激活，大幅降低计算开销。
‌百万级上下文支持‌
原生支持‌100万Token输入‌，与谷歌Gemini 2.5 Pro持平，是DeepSeek R1的8倍，可一次性处理整本书籍、大型代码库或超长法律文书。
‌8万Token推理输出能力‌
支持最长‌8万Token的推理输出长度‌，在开源模型中处于领先地位，适用于复杂逻辑推演、长篇内容生成等任务。
‌闪电注意力机制（Lightning Attention）‌
创新性地将传统注意力拆分为“块内”与“块间”两部分，前者用于局部上下文整合，后者采用线性注意力进行全局摘要，突破Transformer平方复杂度限制，显著提升长文本处理效率。
性能表现与基准测试
‌软件工程能力（SWE-bench Verified）‌
MiniMax-M1-40k和M1-80k分别取得‌55.6%‌和‌56.0%‌的任务解决率，在开源模型中领先，显著超越Qwen3-235B等同类模型。
‌长上下文理解（MRCR）‌
在百万Token长度测试中得分为‌56.2%‌，超越OpenAI o3和Claude 4 Opus，全球排名第二，仅次于Gemini 2.5 Pro。
‌智能体工具调用（TAU-bench）‌
M1-40k在工具使用场景中表现卓越，甚至优于Gemini 2.5 Pro，成为Agent时代首选基座模型。
‌数学推理能力‌
在AIME 2024上达到‌86.0%‌准确率，在MATH-500基准上高达‌96.8%‌，展现强大逻辑推导能力
训练效率与成本优势
‌强化学习算法CISPO‌
提出新型强化学习算法CISPO，通过裁剪重要性采样权重而非直接更新Token，使训练收敛速度提升一倍，优于DAPO、GRPO等主流算法。
‌高效训练流程‌
仅使用‌512块H800 GPU训练三周‌，租赁成本约‌53.5万美元‌（约合380万人民币），相比同类模型降低一个数量级。
‌推理算力节省‌
在生成10万Token内容时，所需FLOPs仅为DeepSeek R1的‌25%‌；进行8万Token深度推理时，算力消耗约为竞品的‌30%‌。
应用场景与部署支持
‌生产力复杂任务‌
适用于软件开发、法律文书分析、科研论文综述、企业知识库构建等需长上下文与深度推理的场景。

立即使用大模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

Minmax模型推荐

minimax-m2.1

MiniMax-M2.1是由MiniMax（稀宇科技）于2025年12月25日发布的多语言编程SOTA模型，系统性提升了

MiniMax-M2.5

MiniMax-M2.5是上海MiniMax公司于2026年2月12日推出的“原生Agent生产级”大语言模型，定位为

MiniMax-M2

MiniMax-M2是MiniMax（稀宇科技）于2025年10月27日发布并开源的一款专为‌高效编码与智能体工

MiniMax-M1

MiniMax-M1是上海AI企业MiniMax（稀宇科技）于2025年6月17日在世界人工智能大会（WAIC）上发布的

MiniMax-M1

Minmax模型

核心参数与架构创新

性能表现与基准测试

训练效率与成本优势

应用场景与部署支持

Minmax模型推荐

minimax-m2.1

MiniMax-M2.5

MiniMax-M2

MiniMax-M1