DeepSeek-V4于2026年4月24日正式发布并开源
DeepSeek-V4于2026年4月24日正式发布并开源,这次升级不仅带来了参数规模和上下文窗口的巨大提升,更在架构上实现了关键创新-。V4系列包含两个核心版本:高性能的 V4-Pro 和高效经济的 V4-Flash。
DeepSeek-V4 核心特性一览
| 特性 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 总参数 | 1.6 万亿 (1.6T) | 2840 亿 (284B) |
| 激活参数 | 490 亿 (49B) | 130 亿 (13B) |
| 最大上下文 | 100万 (1M) tokens | 100万 (1M) tokens |
| 预训练数据量 | 33万亿 (33T) tokens | 32万亿 (32T) tokens |
| 目标应用场景 | 复杂Agent、高级编码、深度推理 | 日常任务、快速响应、成本敏感型应用 |
| API定价 (预览版) | 输入: ¥12 / 百万 tokens 输出: ¥24 / 百万 tokens |
输入: ¥1 / 百万 tokens 输出: ¥2 / 百万 tokens |
| 许可证 | MIT | MIT |
核心技术亮点:更高效的智慧
DeepSeek-V4的核心在于其创新的混合注意力架构,显著提升了处理超长文本的效率。
-
全新“混合注意力”架构:这是V4最重要的升级。它结合了 DSA2 注意力机制和混合注意力架构,更像一位高效的“智能秘书”,能识别出长文档中的关键信息进行精细阅读(不压缩),而对次要信息进行智能归纳压缩。这使得 1M 超长上下文(类似一次性处理《三体》三部曲)成为标配。
-
长文本处理能力大幅跃升:效果立竿见影。在处理 1M token 的超长上下文时,V4-Pro的单token推理算力消耗仅为V3的27%,KV缓存占用更是锐减至V3的10%。这意味着推理内存需求降低了90%-,能以更低成本、更快速度处理海量信息。
-
混合专家(MoE)架构再进化:V4-Pro每层配备384个专家,每次推理激活其中6个-。这套“顾问团”机制确保了在各领域的专业精通。
-
深度适配国产算力:V4系列已深度适配华为昇腾(Ascend)等国产芯片,并已在昇腾平台上完成训练。这标志着从算法到算力的全自主技术闭环已初步形成,对国产AI产业链意义深远。
-
GRPO强化学习优化:通过KL散度校正的GRPO(Group Relative Policy Optimization)算法进行强化学习,显著提升了模型的推理能力。
性能实测:跻身世界顶级梯队
V4系列在多项关键评测中均展现出顶尖实力:
-
Agent与编程:Agent代码任务达开源SOTA(最优),内部体验优于 Sonnet 4.5,交付质量接近 Opus 4.6。
-
世界知识:大幅领先所有开源模型,仅次于 Gemini-Pro-3.1。
-
数学与推理:在数学、STEM及竞赛代码评测中超越所有开源模型,比肩顶级闭源模型。
DeepSeek在技术报告中坦诚, V4-Pro虽已超越部分模型,但与GPT-5.4、Gemini-3.1-Pro等最新顶尖闭源模型相比,预计仍有约3到6个月的差距。
如何使用?多种选择灵活便捷
DeepSeek-V4通过多种方式开放,方便开发者快速接入:
-
平台渠道:可通过 DeepSeek官网 chat.deepseek.com、官方 App、开源平台 Hugging Face、阿里云百炼、腾讯云 TokenHub、华为云 MaaS 、天翼云息壤均已接入。
-
API格式:兼容 OpenAI ChatCompletions 和 Anthropic 接口。
-
模型名称:调用时,
model参数改为deepseek-v4-pro或deepseek-v4-flash-。 -
思考模式:支持非思考模式(快速直觉响应)、思考模式-高(显式推理链)和思考模式-极限(探索模型边界),后两者对应
reasoning_effort参数设为high或max。
总结:一款重新定义行业标杆的开源模型
DeepSeek-V4 是一款性能卓越高,且极具成本优势的开源模型。它在Agent能力、推理效率和上下文长度方面建立的新标准,也让强大的AI能力真正变得普惠。无论是个人开发者还是大型企业,现在都能以更低的成本和门槛,基于V4创造出更多有价值的应用。
- 2026-04-27
- 2026-04-27
- 2026-04-25
- 2026-04-24
- 2026-04-23
- 2026-04-20
- 2026-04-20
- 2026-04-20
- 2026-04-16
- 2025-09-25
