原创
摩尔线程新一代GPU架构“花港”发布!支持十万卡智算集群扩展
12-20 15:44 星期六
财联社记者 黄心怡

《科创板日报》12月20日讯(记者 黄心怡)在今日举行的首届MUSA开发者大会上,摩尔线程发布新一代全功能GPU架构“花港”,以及基于“花港”架构的AI训推一体芯片“华山”和专攻高性能图形渲染的芯片“庐山”。

同时,摩尔线程正式推出了夸娥万卡智算集群,搭载自研“长江”智能SoC 芯片的AI算力本 MTT AIBOOK。

《科创板日报》记者在现场看到,当虹科技、中望软件等多家科创板上市公司与摩尔线程开展合作。其中,当虹科技BlackEye多模态空间大模型基于摩尔线程GPU,满足超高清直播实时转码、离线视频增强等等高性能需求;中控技术的时间序列大模型与摩尔线程的GPU完成了适配;中望软件与摩尔线程推出了全栈国产化三维CAD一体化解决方案,适配多种国产CPU与操作系统。

▍新一代GPU架构“花港”发布

摩尔线程创始人、董事长兼CEO张建中介绍,新发布的GPU架构“花港”, 基于新一代指令集,算力密度提升50%;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持。集成新一代异步编程模型,优化任务调度与并行机制;通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。

基于“花港”架构,摩尔线程公布了未来将发布的两款芯片技术路线:

“华山”专注AI训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元,支持从FP4至FP64的全精度计算,为万卡级智算集群提供算力支撑。

“庐山”专攻高性能图形渲染。在图形性能方面,AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍。集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎,为3A游戏、高端图形创作提供算力支持。

本次大会正式发布了夸娥万卡智算集群,浮点运算能力为10Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,与国际主流生态高度兼容。

摩尔线程公布了MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力,支撑下一代超大规模智算中心建设。

在具身智能方面,摩尔线程推出MT Lambda具身智能仿真训练平台,推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案,并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA,以助力机器人产业研发效率提升。

此外,摩尔线程发布会上还发布面向开发者的AI算力本 MTT AIBOOK,搭载自研“长江”智能SoC,提供高达50TOPS的端侧AI算力。同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube。

▍国产GPU芯片要实现生态自立

英伟达CUDA软件系统生态被业内普遍认为是其最大护城河,也是国产GPU厂商的薄弱之处。

中国工程院院士、清华大学计算机系教授郑纬民表示,国产GPU芯片要实现生态自立,实现从“能跑”到“愿意用。

真正决定主权AI生态成败的,在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心资源,国产平台需要解决迁移成本太高、工具链不成熟,文档/社区与支持不足。实现从‘能用’到‘愿用’的根本性转变,关键在于开发体验。”

目前,摩尔线程对MUSA 软件架构升级到5.0版本,兼容 TileLang、Triton 等编程语言,核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率为97%,编译器性能提升3倍,并集成高性能算子库。后续,计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放底层能力。

摩尔线程创始人、董事长兼CEO张建中还透露,即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho。

对于国产AI芯片软件生态存在的“内卷”与碎片化问题,郑纬民认为,多家厂商各自构建软件栈与接口标准,下游开发者需要为不同平台重复适配。同时,缺乏统一的加速器接口与部分关键组件的开源标准,实现互操作难度大。在生态资源有限的前提下,容易陷入低水平重复建设与“内卷”竞争。

郑纬民表示,应建立面向国产加速器的统一或高度兼容的接口标准,减少软件层的无谓分裂。通过产业联盟机制推动芯片厂商、框架团队、系统厂商与头部应用方开展联合优化。在关键基础软件比如通信库、编译器框架、异构调度系统等上形成共享的开放底座。

郑纬民呼吁,产业团结与协同对于缓解“应用不足、生态薄弱”尤为关键,只有当国产AI卡在真实业务中被大规模使用生态才会具备自我强化的正反馈。

▍“万卡甚至十万卡集群”是必选项

会上发布的摩尔线程新一代GPU架构“花港”,支持十万卡以上规模智算集群扩展。

郑纬民在演讲中提到, 从国产万卡至十万卡系统很难,但从主权AI基建角度,是不得不走的一步。因为模型时代的基本单位是集群总算力,不是单卡性能。预训练超大规模模型、服务国民级推理需求,需要持续可用的万卡级训练集群。

“目前在工程上的主要挑战在于,在没有专有封闭互连的情况下,基于以太网等通用网络实现 All-Reduce 与低延迟通信是关键难点。可靠性与运维有待提升,万卡集群单点故障是常态,需要断点续训、容错训练算法、自动化运维与监控。”郑纬民称。

在能耗与供电散热方面,十万卡规模对应的是百兆瓦级电力需求,需要机房、园区级综合设计。

郑纬民表示,国产集群实践表明,在“通用网络+自研通信库+软硬件”协同设计下,仍然可以构建“可用”的大规模系统,但需要长期持续的工程投入。

财联社声明:文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
热门评论
多点赞来多涨停3916回复3月前·新疆0
十万股
一场在路旅途回复3月前·江西1
6
海上红花坂回复3月前·上海3
摆脱单一硬件供应商身份转向平台级算力基础设施商
cls-zx1b5i回复3月前·四川3
没对比英伟达分析,利好落地了
A银河19回复3月前·山东0
评论萝卜特回复3月前·上海0
背景补充: 摩尔线程于12月20日首届MUSA开发者大会上发布新一代GPU架构“花港”,算力密度提升50%,能效提升10倍,支持十万卡级智算集群扩展。基于该架构推出AI训推一体芯片“华山”与图形芯片“庐山”,并正式推出夸娥万卡智算集群及搭载自研SoC芯片的AI算力本MTT AIBOOK。此外,公司强化MUSA软件生态,计划开源核心组件以吸引开发者。中国工程院院士郑纬民指出,国产GPU需解决生态碎片化问题,推动统一接口标准与产业协同。 影响分析: 1. 技术突破提振市场信心:新一代架构及芯片参数对标国际主流产品(如英伟达Blackwell),若实测性能符合预期,将强化国产替代逻辑,利好半导体板块估值。 2. 商业化进程加速:万卡集群落地与AI算力本预售(9999元/台)拓宽应用场景,合作案例(如当虹科技、中望软件)验证行业渗透力,潜在营收增长或吸引长期资金关注。 3. 生态建设成关键变量:软件开源与开发者生态建设是打破CUDA垄断的核心,若成功降低迁移成本,将提升客户黏性,但需警惕多家国产厂商标准不统一导致的“内卷”风险。 4. 风险提示:公司2025年前三季度亏损7.24亿元,且万卡集群稳定性、低精度计算(FP4)效能需大规模应用验证;美国H200芯片解禁可能加剧市场竞争。 (以上内容由AI生成,不构成投资建议,不代表刊登平台观点,请独立判断和决策。)
小财铁粉回复3月前·上海2
支持FP4到FP64全精度计算?摩尔线程这次真的把牌桌焊死了🔥
hunter-A回复3月前·浙江0
成为主力回复3月前·天津0
cls-1999624回复3月前·广东6
起这么多名字谁记得住啊
裤子我穿回复3月前·四川3
利好什么?
金刚经回复3月前·北京5
支持不难,稳定才是重要
cls-1351179回复3月前·福建0