原创
DeepSeek-V4发布!迈入百万上下文时代 华为昇腾超节点全面支持
2026-04-24 15:06 星期五
科创板日报记者 黄心怡

《科创板日报》4月24日讯(记者 黄心怡)DeepSeek-V4的预览版本今日上线并同步开源。DeepSeek-V4模型上下文处理长度由原有的128K显著扩展至1M,支持百万字超长上下文。同时,输出长度最大为384Ktokens。首次增加了KV Cache滑窗和压缩算法,减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。

华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持DeepSeek-V4新模型。华为昇腾超节点全系列产品支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理。

DeepSeek方面称,受限于高端算力,目前V4-Pro的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。

▍百万上下文成标配

DeepSeek-V4模型按大小分为两个版本:DeepSeek-V4-Pro(1.6T参数,49B激活)和DeepSeek-V4-Flash(284B参数,13B激活),且同时支持“非思考模式”与“思考模式”,均拥有百万字超长上下文的能力。

据介绍,V4系列采用DSA稀疏注意力机制,实现token维度压缩,让1M(一百万字)超长上下文成为标配,降低了长文本处理对计算和显存的需求,为复杂长程任务提供了支撑。

其中,DeepSeek-V4-Pro,相比前代模型,DeepSeek-V4-Pro的Agent能力有所增强。

在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus4.6非思考模式,但仍与Opus4.6思考模式存在一定差距。

DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。

在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的成绩。

DeepSeek-V4-Flash模型参数下降至284B,推理成本进一步降低,模型参数和激活更小

相比DeepSeek-V4-Pro,DeepSeek-V4-Flash在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。

在Agent测评中,DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro旗鼓相当,但在高难度任务上仍有差距。

▍华为昇腾、天数智芯、寒武纪等国产芯片支持DeepSeek-V4

目前,华为昇腾超节点全系列产品已支持DeepSeek V4系列模型,实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理

据了解,昇腾950、昇腾A3超节点对DeepSeek V4系列模型全面适配。同时为便于用户快速微调,提供了基于昇腾A3超节点的训练参考实现。

基于DeepSeekV4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。

基于昇腾A3 64卡超节点结合大EP模式部署,DeepSeek V4-Flash模型,8K/1K输入输出场景,基于vLLM推理引擎可实现2000+TPS的单卡Decode吞吐。针对DeepSeek V4-Pro模型,昇腾A3同步支持推理部署,性能持续优化中。

国产GPU厂商天数智芯完成了与DeepSeek-V4的Day 0级适配。据悉,天数智芯以天垓系列训练芯片与智铠系列推理芯片为核心,承接DeepSeek-V4的全场景应用。

而寒武纪基于vLLM推理框架完成了对此次285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro两个版本的Day 0适配,适配代码已开源到GitHub社区。

▍下半年昇腾950超节点将批量支持DeepSeek V4

根据DeepSeep官方文档介绍,DeepSeek V4并不是只在英伟达体系内做优化,而是将细粒度专家并行(EP)方案同时在英伟达GPU和华为昇腾NPU上完成验证,这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面,当前释放的仍主要是基于CUDA的MegaMoE和DeepGEMM,底层实现深度绑定英伟达工具链。

从价格看,DeepSeek V4-Pro输入(缓存命中)是1元/百万tokens,输入(缓存未命中)是12元,输出是24元;V4-Flash输入(缓存命中)是0.2元/百万tokens,输入(缓存未命中)是1元,输出是2元。

值得一提的是,官方API页面在小字中提到,受限于高端算力,目前V4-Pro的服务吞吐仍有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。这意味着,DeepSeek正尝试把模型运行时从单一硬件依赖中解耦出来。

此外,华为云首发适配了DeepSeek-V4模型。华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。

财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
热门评论
中华英雄回复2天前·浙江0
昇腾链的春天来了
~BMA~回复2天前·陕西0
东华软件
cls-jv83m8回复2天前·云南0
菲菱科思
cls-ehbvd1回复2天前·贵州0
澜起科技
哈哈锅盖回复2天前·广东0
下周铜牛信息涨停
cls-i9on8c回复2天前·河北0
利好银行,光模块
cls-wkgz7x回复2天前·广东0
华为昇腾、天数智芯、寒武纪等国产芯片厂商已经支持DeepSeek-V4新模型
cls-bocjqw回复2天前·江苏0
超预期?
Ckl2026回复2天前·四川0
利空
cls-r705vx回复2天前·新疆1
最近该涨的都涨了,AI应用和DeepSeek有关的还趴在低位,是时候表现了一下。
老猫回复2天前·山西0
不敢相信
cls-tf5elf回复2天前·山东0
感觉不及预期,没很大的亮点啊。
老猫回复2天前·山西5
鸡毛
cls-1393837回复2天前·北京0
每日互动被砸麻了
我家邻居叫Tony回复2天前·上海2
市场反应平平啊
评论萝卜特回复2天前·上海0
背景补充 DeepSeek-V4于2026年4月24日正式发布,分为Pro(1.6T参数/49B激活)和Flash(284B参数/13B激活)双版本,核心突破包括: 1. 百万上下文能力:通过DSA稀疏注意力技术,实现1M token(约75万字)长文本处理,显存需求降至V3的10%,大幅降低长文本计算成本; 2. 国产算力适配:华为昇腾950实现20ms(Pro)及10ms(Flash)低时延推理,寒武纪、天数智芯同步完成Day 0适配; 3. 性能对标顶级模型:Pro版在Agent编程评测达开源最优,数学/STEM能力比肩Gemini 3.1 Pro,但较Claude Opus 4.6思考模式仍有差距; 4. 定价策略:Flash版主打性价比(0.2元/百万token输入),Pro版受限于算力当前定价较高(12元/百万token输入),预计下半年昇腾950量产后价格大幅下调。 影响分析 1. 国产算力产业链直接受益: - 华为昇腾:技术验证落地推动超节点服务器需求,昇腾950量产将降低Pro模型成本,利好中芯国际(代工)、拓维信息(服务器合作商); - 寒武纪/天数智芯:适配代码开源提升生态地位,寒武纪股价已现异动。 2. 模型商业化竞争加剧: - DeepSeek开源高性能模型倒逼智谱、MiniMax加速迭代,但短期GLM-5.1仍保持编程能力优势; - API低价策略(Flash版)可能挤压中小模型厂商利润空间。 3. 下游应用场景拓展: - 百万上下文能力利好金融/法律文档分析、代码仓库级开发等长文本场景,润和软件(金融科技)、金山办公(AI文档)或受益; - Agent能力优化推动自动化工作流普及,关注石基信息(企业服务集成商)。 > 风险提示:Pro版实际性能与闭源顶级模型仍有差距;昇腾950量产进度若延迟,可能影响成本优化节奏。 (以上内容由AI生成,不构成投资建议,不代表刊登平台观点,请独立判断和决策。)
神魔不信邪回复2天前·四川0
我亏安逸了
cls-0z5ae9回复2天前·天津1
这时候发利好,估计又炒不起来了。
股道回复2天前·湖南7
华丰科技、拓维信息、浙文互联已经涨了
danielgqsoong回复2天前·上海0
🐄
流畅贰零回复2天前·湖南1
高新发展么?
cls-9ihyt6回复2天前·江苏2
周末好好发酵一下
cls-0alw63回复2天前·四川0
正一蓑烟雨任平生回复2天前·山西6
寒武纪,人工智能,电力。
TomARG回复2天前·重庆6
感觉一般。