摩尔线程新一代GPU架构“花港”发布！支持十万卡智算集群扩展

2025-12-20 15:44 星期六

财联社记者黄心怡

《科创板日报》12月20日讯（记者黄心怡）在今日举行的首届MUSA开发者大会上，摩尔线程发布新一代全功能GPU架构“花港”，以及基于“花港”架构的AI训推一体芯片“华山”和专攻高性能图形渲染的芯片“庐山”。

同时，摩尔线程正式推出了夸娥万卡智算集群，搭载自研“长江”智能SoC 芯片的AI算力本 MTT AIBOOK。

《科创板日报》记者在现场看到，当虹科技、中望软件等多家科创板上市公司与摩尔线程开展合作。其中，当虹科技BlackEye多模态空间大模型基于摩尔线程GPU，满足超高清直播实时转码、离线视频增强等等高性能需求；中控技术的时间序列大模型与摩尔线程的GPU完成了适配；中望软件与摩尔线程推出了全栈国产化三维CAD一体化解决方案，适配多种国产CPU与操作系统。

▍新一代GPU架构“花港”发布

摩尔线程创始人、董事长兼CEO张建中介绍，新发布的GPU架构“花港”，基于新一代指令集，算力密度提升50%；支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持。集成新一代异步编程模型，优化任务调度与并行机制；通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展。

基于“花港”架构，摩尔线程公布了未来将发布的两款芯片技术路线：

“华山”专注AI训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元，支持从FP4至FP64的全精度计算，为万卡级智算集群提供算力支撑。

“庐山”专攻高性能图形渲染。在图形性能方面，AI计算性能提升64倍，几何处理性能提升16倍，光线追踪性能提升50倍。集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎，为3A游戏、高端图形创作提供算力支持。

本次大会正式发布了夸娥万卡智算集群，浮点运算能力为10Exa-Flops，训练算力利用率（MFU）在Dense大模型上达60%，MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95%，与国际主流生态高度兼容。

摩尔线程公布了MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计，旨在系统性提升万卡集群的训练效能与推理能力，支撑下一代超大规模智算中心建设。

在具身智能方面，摩尔线程推出MT Lambda具身智能仿真训练平台，推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案，并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA，以助力机器人产业研发效率提升。

此外，摩尔线程发布会上还发布面向开发者的AI算力本 MTT AIBOOK，搭载自研“长江”智能SoC，提供高达50TOPS的端侧AI算力。同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube。

▍国产GPU芯片要实现生态自立

英伟达CUDA软件系统生态被业内普遍认为是其最大护城河，也是国产GPU厂商的薄弱之处。

中国工程院院士、清华大学计算机系教授郑纬民表示，国产GPU芯片要实现生态自立，实现从“能跑”到“愿意用。

“真正决定主权AI生态成败的，在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心资源，国产平台需要解决迁移成本太高、工具链不成熟，文档/社区与支持不足。实现从‘能用’到‘愿用’的根本性转变，关键在于开发体验。”

目前，摩尔线程对MUSA 软件架构升级到5.0版本，兼容 TileLang、Triton 等编程语言，核心计算库muDNN实现GEMM/FlashAttention效率超98%，通信效率为97%，编译器性能提升3倍，并集成高性能算子库。后续，计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件，向开发者社区开放底层能力。

摩尔线程创始人、董事长兼CEO张建中还透露，即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q，以及计算光刻库muLitho。

对于国产AI芯片软件生态存在的“内卷”与碎片化问题，郑纬民认为，多家厂商各自构建软件栈与接口标准，下游开发者需要为不同平台重复适配。同时，缺乏统一的加速器接口与部分关键组件的开源标准，实现互操作难度大。在生态资源有限的前提下，容易陷入低水平重复建设与“内卷”竞争。

郑纬民表示，应建立面向国产加速器的统一或高度兼容的接口标准，减少软件层的无谓分裂。通过产业联盟机制推动芯片厂商、框架团队、系统厂商与头部应用方开展联合优化。在关键基础软件比如通信库、编译器框架、异构调度系统等上形成共享的开放底座。

郑纬民呼吁，产业团结与协同对于缓解“应用不足、生态薄弱”尤为关键，只有当国产AI卡在真实业务中被大规模使用生态才会具备自我强化的正反馈。

▍“万卡甚至十万卡集群”是必选项

会上发布的摩尔线程新一代GPU架构“花港”，支持十万卡以上规模智算集群扩展。

郑纬民在演讲中提到，从国产万卡至十万卡系统很难，但从主权AI基建角度，是不得不走的一步。因为模型时代的基本单位是集群总算力，不是单卡性能。预训练超大规模模型、服务国民级推理需求，需要持续可用的万卡级训练集群。

“目前在工程上的主要挑战在于，在没有专有封闭互连的情况下，基于以太网等通用网络实现 All-Reduce 与低延迟通信是关键难点。可靠性与运维有待提升，万卡集群单点故障是常态，需要断点续训、容错训练算法、自动化运维与监控。”郑纬民称。

在能耗与供电散热方面，十万卡规模对应的是百兆瓦级电力需求，需要机房、园区级综合设计。

郑纬民表示，国产集群实践表明，在“通用网络+自研通信库+软硬件”协同设计下，仍然可以构建“可用”的大规模系统，但需要长期持续的工程投入。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。