deepseek-v4-pro
DeepSeek模型
DeepSeek-V4-Pro 是深度求索(DeepSeek)于 2026年4月24日 发布并开源的旗舰级大语言模型,属于 DeepSeek-V4 系列中的高性能版本。该模型以 1.6万亿总参数、490亿激活参数 和 百万级(1M)上下文窗口 为核心特性,在多项基准测试中达到开源模型领先水平,部分能力已接近或比肩国际顶级闭源模型(如 GPT-5.4、Claude Opus 4.6、Gemini-Pro 3.1)1。
核心特性
模型架构:采用 混合专家(MoE)架构,总参数达 1.6T(1.6万亿),单次推理激活约 49B(490亿)参数。
上下文长度:支持 1M(一百万)Token 的超长上下文,是当前官方服务的标配,适用于长文档、代码仓库、多轮复杂对话等场景23。
推理模式:
支持 非思考模式(Non-think) 与 思考模式(Think)。
思考模式可通过
reasoning_effort参数设置强度(可选high或max),默认为high。训练数据:预训练使用约 33T 高质量 Token,覆盖世界知识、数学、编程、Agent 任务等多领域。
后训练方法:采用 On-Policy Distillation(OPD) 两阶段范式:
领域专家培育:分别训练数学、代码、Agent 等领域的专家模型;
统一蒸馏:将多个专家能力融合到一个学生模型中,避免任务干扰
。
性能表现(V4-Pro-Max 模式)
编程能力 | LiveCodeBench Pass@1 | 93.5%(超越 GPT-5.4 xHigh) |
Codeforces Rating | 3206(高于 GPT-5.4 的 3168) | |
Apex Shortlist | 90.2(全场最高) | |
世界知识 | MMLU-Pro | 87.5(略低于 Gemini-Pro-3.1 的 91.0) |
SimpleQA-Verified | 57.9(优于 Opus-4.6-Max 的 46.2) | |
数学推理 | HMMT 2026 | 95.2% |
长文本理解 | MRCR 1M | 83.5(低于 Opus-4.6 Max 的 92.9) |
智能体能力 | SWE Verified Resolved | 80.6%(接近 Opus-4.6 Max 的 80.8) |
数据来源:23
技术创新
混合注意力机制(Hybrid Attention):
CSA(压缩稀疏注意力):每 4 个 Token 压缩为 1 个 KV 条目;
HCA(重度压缩注意力):每 128 个 Token 压缩为 1 个条目;
二者交替使用,在 1M 上下文下将 单 Token FLOPs 降至 V3.2 的 27%,KV Cache 仅需 10%。
流形约束超连接(mHC):通过约束残差映射矩阵在双随机流形上,保障深层网络信号稳定传播
。Muon 优化器:替代 AdamW,采用 Newton-Schulz 正交化提升训练稳定性与收敛速度
。混合精度训练:MoE 专家参数使用 FP4,其余参数使用 FP8,支持无损反量化
。
API 与部署
定价(2026年4月28日更新)16:
输入(缓存命中):¥0.025 / 百万 tokens(原价 ¥1,2.5折优惠延至 5月31日)
输入(未命中):¥3 / 百万 tokens
输出:¥6 / 百万 tokens
平台支持:
官网 API:DeepSeek 官网
阿里云百炼:阿里云百炼
腾讯云 TokenHub:提供预览版 API4
国产算力适配:
华为昇腾 950PR:原生支持,FP8 算力达 1 PFLOPS(为英伟达 H20 的 2.87 倍)3
寒武纪 MTT S5000:已完成 V4-Flash 适配,V4-Pro 正在迁移512
昇腾超节点:全系列产品已支持 V4 系列,预计 2026 年下半年批量上市后将大幅降低服务成本
使用建议
适用场景:
高阶科研、复杂逻辑推理、专业代码生成、长文本深度解析;
适合替代 GPT-5 或 Claude Opus 4.6 的非核心业务,成本可降低 80%–90%
。推荐配置:
复杂任务:启用
reasoning_effort=max,上下文 ≥ 384K;日常任务:使用 V4-Flash 更经济高效
。
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能
DeepSeek模型推荐
deepseek-v4-pro
DeepSeek-V4-Pro是深度求索(DeepSeek)于2026年4月24日发布并开源的旗舰级大语言模型,
deepseek-v4-flash
DeepSeek-V4-Flash是深度求索(DeepSeek)公司于2026年4月24日发布的高效轻量化大模型,
deepseek-v3-1-terminus
DeepSeek-V3.1-Terminus是深度求索(DeepSeek)于2025年9月22日发布的DeepSeek-V3.1系列
deepseek-r1-search
DeepSeek-R1是由DeepSeek公司推出的一系列基于强化学习的开源推理大模型,其核心功能主要体
deepseek-v3.1
DeepSeek-V3.1是由深度求索(DeepSeek)于2025年9月发布的面向AI编程与多模态推理的高性能
deepseek-v3.2
DeepSeek-V3.2是由深度求索(DeepSeek)公司于2025年9月发布的开源大语言模型系列,其核心目标
deepseek-reasoner
DeepSeek推理模型(deepseek-reasoner)是一款基于深度学习技术的先进推理引擎,专为解决复杂的
deepseek-coder
DeepSeek-Coder是由DeepSeek团队开发的一系列专为代码生成与理解任务优化的大语言模型,其最