deepseek-v4-pro

DeepSeek模型

字体：大中小

DeepSeek-V4-Pro‌ 是深度求索（DeepSeek）于 ‌2026年4月24日‌ 发布并开源的旗舰级大语言模型，属于 DeepSeek-V4 系列中的高性能版本。该模型以 ‌1.6万亿总参数‌、‌490亿激活参数‌ 和 ‌百万级（1M）上下文窗口‌ 为核心特性，在多项基准测试中达到开源模型领先水平，部分能力已接近或比肩国际顶级闭源模型（如 GPT-5.4、Claude Opus 4.6、Gemini-Pro 3.1）‌1。

核心特性

‌模型架构‌：采用 ‌混合专家（MoE）架构‌，总参数达 ‌1.6T（1.6万亿）‌，单次推理激活约 ‌49B（490亿）参数‌。
‌上下文长度‌：支持 ‌1M（一百万）Token‌ 的超长上下文，是当前官方服务的标配，适用于长文档、代码仓库、多轮复杂对话等场景‌23。
‌推理模式‌：

支持 ‌非思考模式（Non-think）‌ 与 ‌思考模式（Think）‌。
思考模式可通过 reasoning_effort 参数设置强度（可选 high 或 max），默认为 high。

‌训练数据‌：预训练使用约 ‌33T 高质量 Token‌，覆盖世界知识、数学、编程、Agent 任务等多领域‌。
‌后训练方法‌：采用 ‌On-Policy Distillation（OPD）‌ 两阶段范式：

‌领域专家培育‌：分别训练数学、代码、Agent 等领域的专家模型；
‌统一蒸馏‌：将多个专家能力融合到一个学生模型中，避免任务干扰‌
。

性能表现（V4-Pro-Max 模式）

评测维度

指标

表现


‌编程能力‌	LiveCodeBench Pass@1	‌93.5%‌（超越 GPT-5.4 xHigh）
	Codeforces Rating	‌3206‌（高于 GPT-5.4 的 3168）
	Apex Shortlist	‌90.2‌（全场最高）
‌世界知识‌	MMLU-Pro	‌87.5‌（略低于 Gemini-Pro-3.1 的 91.0）
	SimpleQA-Verified	‌57.9‌（优于 Opus-4.6-Max 的 46.2）
‌数学推理‌	HMMT 2026	‌95.2%‌
‌长文本理解‌	MRCR 1M	‌83.5‌（低于 Opus-4.6 Max 的 92.9）
‌智能体能力‌	SWE Verified Resolved	‌80.6%‌（接近 Opus-4.6 Max 的 80.8）

数据来源：‌23

技术创新

‌混合注意力机制（Hybrid Attention）‌：

‌CSA（压缩稀疏注意力）‌：每 4 个 Token 压缩为 1 个 KV 条目；
‌HCA（重度压缩注意力）‌：每 128 个 Token 压缩为 1 个条目；
二者交替使用，在 1M 上下文下将 ‌单 Token FLOPs 降至 V3.2 的 27%‌，‌KV Cache 仅需 10%‌‌。

‌流形约束超连接（mHC）‌：通过约束残差映射矩阵在双随机流形上，保障深层网络信号稳定传播‌
。
‌Muon 优化器‌：替代 AdamW，采用 Newton-Schulz 正交化提升训练稳定性与收敛速度‌
。
‌混合精度训练‌：MoE 专家参数使用 ‌FP4‌，其余参数使用 ‌FP8‌，支持无损反量化‌
。

API 与部署

‌定价（2026年4月28日更新）‌‌16：

‌输入（缓存命中）‌：‌¥0.025 / 百万 tokens‌（原价 ¥1，2.5折优惠延至 5月31日）
‌输入（未命中）‌：‌¥3 / 百万 tokens‌
‌输出‌：‌¥6 / 百万 tokens‌

‌平台支持‌：

官网 API：DeepSeek 官网
阿里云百炼：阿里云百炼
腾讯云 TokenHub：提供预览版 API‌4

‌国产算力适配‌：

‌华为昇腾 950PR‌：原生支持，FP8 算力达 1 PFLOPS（为英伟达 H20 的 2.87 倍）‌3
‌寒武纪 MTT S5000‌：已完成 V4-Flash 适配，V4-Pro 正在迁移‌512
‌昇腾超节点‌：全系列产品已支持 V4 系列，预计 2026 年下半年批量上市后将大幅降低服务成本‌

使用建议

‌适用场景‌：

高阶科研、复杂逻辑推理、专业代码生成、长文本深度解析；
适合替代 GPT-5 或 Claude Opus 4.6 的非核心业务，成本可降低 ‌80%–90%‌‌
。

‌推荐配置‌：

复杂任务：启用 reasoning_effort=max，上下文 ≥ 384K；
日常任务：使用 V4-Flash 更经济高效‌
。

立即使用大模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型，支持对话、写作、编程、图像、视频等多种功能

DeepSeek模型推荐

deepseek-v4-pro

DeepSeek-V4-Pro‌是深度求索（DeepSeek）于‌2026年4月24日‌发布并开源的旗舰级大语言模型，

deepseek-v4-flash

DeepSeek-V4-Flash‌是深度求索（DeepSeek）公司于‌2026年4月24日‌发布的高效轻量化大模型，

deepseek-v3-1-terminus

DeepSeek-V3.1-Terminus‌是深度求索（DeepSeek）于‌2025年9月22日‌发布的DeepSeek-V3.1系列

deepseek-r1-search

DeepSeek-R1‌是由DeepSeek公司推出的一系列基于强化学习的开源推理大模型，其核心功能主要体

deepseek-v3.1

‌DeepSeek-V3.1‌是由深度求索（DeepSeek）于2025年9月发布的面向AI编程与多模态推理的高性能

deepseek-v3.2

DeepSeek-V3.2是由深度求索（DeepSeek）公司于2025年9月发布的开源大语言模型系列，其核心目标

deepseek-reasoner

DeepSeek推理模型（deepseek-reasoner）是一款基于深度学习技术的先进推理引擎，专为解决复杂的

deepseek-coder

DeepSeek-Coder是由DeepSeek团队开发的一系列专为代码生成与理解任务优化的大语言模型，其最