原创
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
08-24 10:25 星期日
科创板日报记者 张洋洋

《科创板日报》8月24日讯(记者 张洋洋)国产大模型企业DeepSeek“点燃”资本市场。

近日,DeepSeek宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale参数精度,并明确指出该精度标准是针对即将发布的下一代国产芯片设计。这一消息迅速在资本市场引发强烈反应,寒武纪等芯片类上市企业股价集体拉升。

不过,在近两日举办的2025算力大会上,据《科创板日报》记者的现场采访和观察来看,大家在聚焦国产算力时,DeepSeek的FP8精度标准虽被讨论,但业内人士的情绪显然没有资本市场那么高亢。技术派更关注FP8在模型训练、推理及生态标准化上的实际价值与挑战。

▍FP8是什么,有哪些提升?

在AI训练与推理过程中,为提升计算效率,数值精度的降低是一个常见的技术路径。

摩尔线程AI Infra总监陈志向《科创板日报》记者称,过去,大模型训练推理普遍使用FP32(32位浮点数),随后逐步过渡到FP16(16位浮点数)混合精度,以减少存储和通信开销,FP8则进一步将数据宽度压缩至8位

“FP8最直接的优势是算力效率翻倍,另一个好处是降低降低训练和推理过程中网络带宽的通信量。”陈志称,比如原本传输一个FP32数值需4字节,现在仅需FP8仅需要1字节,虽然网络物理带宽本身未必扩大,但单位时间内可传输信息是增加的,同时也让存储要求降低。这意味着在相同功耗下,AI芯片可训练更大的模型或缩短训练时间。

不过,FP8也不是万能的。

在2025算力大会现场,另一名不愿具名的国产芯片厂商从业人员告诉《科创板日报》记者,用类似FP8低精度训练推理虽然快,但也容易因数值范围太小导致计算出错。而且,不同计算对精度要求不同,像矩阵乘法这类操作对精度不敏感,可以用较低的精度(如FP8)计算;而像累加或某些函数则需要较高精度。因此,业内通常采用“混合精度训练”,根据计算类型动态选择不同的精度,兼顾效率与准确。

▍Deepseek能否推动新标准

DeepSeek-V3.1使用UE8M0 FP8 Scale 的参数精度,被视为国产AI芯片即将迈入新阶段的信号。受此刺激,寒武纪等芯片类上市公司股价大幅上涨,但产业界人士态度更为审慎。

在业内看来,DeepSeek此举无疑给了国内算力厂商的机会,FP8代表了算力优化的正确方向,大模型训练推理不只是堆砌硬件,但它也并非“灵丹妙药”,更需要关注的是实际落地效果。此外DeepSeek的这一动作,后续是否会成为大模型训练与推理的新标准。

在陈志看来,大模型对精度的容忍度越来越高,从FP32到FP16,再到FP8,是整个行业逐步验证过的路径。DeepSeek这次验证了FP8在大规模模型上的可行性,未来在FP8这一标准乃至更高精度上去做研究或者做训练也是一个很重要的方向。

当然,这一趋势也意味着,国产算力生态需要同步升级,包括芯片、框架、算力平台到应用层的闭环适配。

陈志表示,精度标准一旦变化,上下游厂商也需要联动优化。摩尔线程已提前布局FP8研究,既是技术储备,也是为了在生态调整中占据主动。

他进一步说到,大模型训练推理的核心瓶颈不仅是算力规模,还包括能耗、稳定性和集群利用,“国内万卡规模集群已有部署,但还要向大智算集群演进,解决效率与容错问题,确保集群可靠性。简单‘堆卡’并不能完全满足需求,提高单卡效率与集群调度优化同样关键”

财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
热门评论
乂武犯禁回复1天前·河北0
Mison 。34回复1天前·湖南0
国外已经在用fp4了,你还标准
每天都赚钱回复1天前·天津0
期待
小呆256回复1天前·山东0
👌
cls-2qw506回复2天前·湖南0
DeepSeek的FP8精度标准被行业会议讨论
卖鱼桥回复2天前·浙江0
加油
社财回复2天前·山西0
关键是核心技术,在取巧的同时千万不能落下基础
胖胖0755回复2天前·新疆0
国产智能
cls-8hr0y9回复2天前·山东0
看看
cls_51679回复2天前·江苏0
dhgd回复2天前·山东0
墨迹
dhgd回复2天前·山东0
没赶上
dhgd回复2天前·山东0
dhgd回复2天前·山东0
起飞
dhgd回复2天前·山东0
dhgd回复2天前·山东1
cls-391pao回复2天前·广东0
技术派更关注FP8在模型训练、推理及生态标准化上的实际价值与挑战。
cls-1813993回复2天前·湖南0
润欣科技,chiplet起飞
archer1230回复2天前·上海0
科德教育又要一字板了
沛Sunya回复2天前·福建0
666
鹿港回复2天前·安徽0
每日互动
奔跑的樱桃回复2天前·吉林0
cls-ox5mhh回复2天前·辽宁8
有没有想过一个问题。幻方量化周四晚上公布这个消息,周五无脑拉国产芯片,但其实,国产芯片还没什么实质性消息,但是这个消息公布,如果幻方量化,周四埋伏,周五拉升,那周一情绪接力,最晚周二也要兑现了。周日猛吹,但是实质上,一点实质的东西都没有。真的很好笑啊,这钱真的都让幻方量化挣了。手里握着最牛逼的DEEPSEEK,然后还炒股。九月份再发个R2,提前进去埋伏。再发个利好。我滴妈。真是比抢钱还容易
知行合一难于上青天回复2天前·浙江9
FP8 不是重点,重点是国产芯片的流片,说明国产光刻机量产了。
cls-2ig19h回复2天前·内蒙古1
[微笑]
cls-1f7hub回复2天前·广东3
杭钢起飞
平常心66回复2天前·山东0
群兴玩具
cls-wa90b6回复2天前·湖南0
TONY回复2天前·广东14
DeepSeek主动为国产芯片发展生态站位,推动国产算力厂商在浮点格式等环节实现突破。可以说FP8在向英伟达生态突围方面迈出了重要一步,它使得国产芯片在性能上有了与英伟达芯片竞争的可能,减少了对英伟达芯片的依赖。
cls-1580663回复2天前·江西0
很好
漫山遍野92猴回复2天前·内蒙古2
[得意]
_抄家养股回复2天前·山东2
加油了老铁们
_抄家养股回复2天前·山东1
6
财母回复2天前·江苏12
DeepSeek的FP8精度标准虽被讨论,但业内人士的情绪显然没有资本市场那么高亢。说的得有技巧!
股维夏回复2天前·安徽11
国产芯见证历史
TONY回复2天前·广东6
DeepSeek采用的UE8M0 FP8精度格式 ,通过动态指数缩放策略降低75%显存带宽需求 ,已获摩尔线程、寒武纪等国产芯片原生支持 ,华为昇腾也通过OptiQuant方案实现INT8与FP8精度持平。这种软硬协同模式推动国产芯片在算力密度(提升2倍)、能效比(降低75%能耗)等指标上接近英伟达H100水平 ,标志着国产AI芯片首次在核心计算范式上与国际巨头形成技术对标。 尽管英伟达仍主导FP8生态(如TensorRT-LLM优化工具链) ,但国产阵营已构建「芯片-模型-框架」闭环:摩尔线程Torch-MUSA框架原生支持FP8张量计算 ,寒武纪思元590芯片完成DeepSeek 6710亿参数模型适配,华为昇腾910C推理性能达H100的60% 。这种差异化路径(如UE8M0动态缩放)避开英伟达专利壁垒,在政务云、工业AI等场景实现规模化落地,为国产算力生态开辟出替代路径。
阿布都妞子胖7462回复2天前·新疆2
航标灯塔
多点赞来多涨停3916回复2天前·新疆7
引领行业风向标
cls-1386117回复2天前·上海0
[发呆]
薄荷糖炒栗子回复2天前·北京0
好的
cls-1863355回复2天前·广东2
周一收割
cls-lp5x3e回复2天前·上海0
封测起飞
cls-lp5x3e回复2天前·上海0
封测起飞
阆山行回复2天前·四川0
[强]
cls-o345l0回复2天前·江苏1
对我帮助很大
cls-o345l0回复2天前·江苏0
非常喜欢
cls-o345l0回复2天前·江苏0
真好用