DeepSeek-V4发布！迈入百万上下文时代华为昇腾超节点全面支持

2026-04-24 15:06 星期五

科创板日报记者黄心怡

《科创板日报》4月24日讯（记者黄心怡）DeepSeek-V4的预览版本今日上线并同步开源。DeepSeek-V4模型上下文处理长度由原有的128K显著扩展至1M，支持百万字超长上下文。同时，输出长度最大为384Ktokens。首次增加了KV Cache滑窗和压缩算法，减少Attention计算和访存开销，并通过模型架构创新更好地支持了Agent和Coding场景。

华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持DeepSeek-V4新模型。华为昇腾超节点全系列产品支持DeepSeek V4系列模型，实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。

DeepSeek方面称，受限于高端算力，目前V4-Pro的服务吞吐仍有限，预计下半年昇腾950超节点批量上市后，Pro价格会大幅下调。

▍百万上下文成标配

DeepSeek-V4模型按大小分为两个版本：DeepSeek-V4-Pro（1.6T参数，49B激活）和DeepSeek-V4-Flash（284B参数，13B激活），且同时支持“非思考模式”与“思考模式”，均拥有百万字超长上下文的能力。

据介绍，V4系列采用DSA稀疏注意力机制，实现token维度压缩，让1M（一百万字）超长上下文成为标配，降低了长文本处理对计算和显存的需求，为复杂长程任务提供了支撑。

其中，DeepSeek-V4-Pro，相比前代模型，DeepSeek-V4-Pro的Agent能力有所增强。

在Agentic Coding评测中，V4-Pro已达到当前开源模型最佳水平，并在其他Agent相关评测中同样表现优异。据评测反馈使用体验优于Sonnet 4.5，交付质量接近Opus4.6非思考模式，但仍与Opus4.6思考模式存在一定差距。

DeepSeek-V4-Pro在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的成绩。

而DeepSeek-V4-Flash模型参数下降至284B，推理成本进一步降低，模型参数和激活更小。

相比DeepSeek-V4-Pro，DeepSeek-V4-Flash在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下V4-Flash能够提供更加快捷、经济的API服务。

在Agent测评中，DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro旗鼓相当，但在高难度任务上仍有差距。

▍华为昇腾、天数智芯、寒武纪等国产芯片支持DeepSeek-V4

目前，华为昇腾超节点全系列产品已支持DeepSeek V4系列模型，实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。

据了解，昇腾950、昇腾A3超节点对DeepSeek V4系列模型全面适配。同时为便于用户快速微调，提供了基于昇腾A3超节点的训练参考实现。

基于DeepSeekV4-Pro模型，在8K输入场景，昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型，8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。

基于昇腾A3 64卡超节点结合大EP模式部署，DeepSeek V4-Flash模型，8K/1K输入输出场景，基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐。针对DeepSeek V4-Pro模型，昇腾A3同步支持推理部署，性能持续优化中。

国产GPU厂商天数智芯完成了与DeepSeek-V4的Day 0级适配。据悉，天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心，承接DeepSeek-V4的全场景应用。

而寒武纪基于vLLM推理框架完成了对此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本的Day 0适配，适配代码已开源到GitHub社区。

▍下半年昇腾950超节点将批量支持DeepSeek V4

根据DeepSeep官方文档介绍，DeepSeek V4并不是只在英伟达体系内做优化，而是将细粒度专家并行（EP）方案同时在英伟达GPU和华为昇腾NPU上完成验证，这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面，当前释放的仍主要是基于CUDA的MegaMoE和DeepGEMM，底层实现深度绑定英伟达工具链。

从价格看，DeepSeek V4-Pro输入（缓存命中）是1元/百万tokens，输入（缓存未命中）是12元，输出是24元；V4-Flash输入（缓存命中）是0.2元/百万tokens，输入（缓存未命中）是1元，输出是2元。

值得一提的是，官方API页面在小字中提到，受限于高端算力，目前V4-Pro的服务吞吐仍有限，预计下半年昇腾950超节点批量上市后，Pro价格会大幅下调。这意味着，DeepSeek正尝试把模型运行时从单一硬件依赖中解耦出来。

此外，华为云首发适配了DeepSeek-V4模型。华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。