12月20日,摩尔线程举办的首届MUSA开发者大会(MUSA Developer Conference,简称 MDC 2025)正式召开。这是国内首个聚焦全功能GPU的开发者大会。本次大会以“创造·链接·汇聚(Create,Connect,Converge)”为核心理念,直面了当前技术自立自强与产业升级的时代主题。摩尔线程创始人、董事长兼 CEO 张建中首次系统阐述了以MUSA为核心的全栈发展战略。同时,摩尔线程重磅发布了全新一代GPU架构“花港”,以及基于“花港”架构的两款芯片技术路线。此外,支撑万亿参数模型训练的夸娥万卡集群、面向下一代超大规模智算中心的MTT C256超节点架构规划,搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK,可实现硬件级光线追踪加速与自研AI生成式渲染技术等一大批新技术新产品集中亮相,将年终我国AI芯片产业热潮推向了一个新高峰。
当前全球AI产业进入爆发式增长阶段,AI 芯片赛道竞争日趋激烈。一方面,大模型训练、科学计算、图形渲染等高端场景对算力的需求持续激增,要求芯片具备更强性能、更高能效与更广泛的生态兼容性;另一方面,技术自主可控成为国产芯片产业的核心诉求,打破海外技术垄断、构建自主计算生态,已成为行业发展的必然趋势。摩尔线程作为国产全功能 GPU 领域的领军企业,自成立以来便聚焦核心技术研发,深耕 MUSA 统一系统架构的迭代与完善,在硬件设计、软件生态、场景适配等方面积累了深厚实力,逐步形成了从技术研发到产业落地的完整布局,为国产 GPU 技术的突破与生态构建奠定了坚实基础。
以MUSA为锚,构建全栈自主算力体系
MUSA是摩尔线程自主研发的元计算统一计算架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。MUSA不仅完整定义了从芯片设计到软件生态的统一技术标准,也是摩尔线程坚持底层创新、践行长期主义的战略核心,并为全功能GPU奠定了坚实的技术根基,可高效支持AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码等全场景高性能计算。
![]()
本次大会上,张建中首次系统阐述了以MUSA为核心的全栈发展战略,涵盖架构、芯片、集群、超节点、智算平台、产业生态等多个方面。摩尔线程将以MUSA架构为锚点,以全功能GPU筑牢算力长城,构建全栈算力体系。张建中表示,这一战略的核心逻辑在于打破技术壁垒,通过全栈能力的协同发力,满足千行百业在数智化转型中对多元算力的差异化需求,同时为国产GPU技术的自主创新奠定坚实基础。
张建中还正式发布了全栈软件升级的MUSA 5.0版本。历经五年深度研发与持续迭代,MUSA实现了软件性能的指数级跨越。在编程生态上,原生MUSA C深度兼容TileLang、Triton等编程语言,为开发者提供灵活高效的全栈开发体验;在计算效能上进行极致的优化,核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程;在开源生态上持续扩大,逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放深度优化的底层能力;同时极力拓展前沿特性边界,即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho等,持续拓展全功能GPU的算力边界。
新一代“花港”架构实现全维度革新
本次大会的核心亮点之一,是摩尔线程重磅发布的新一代GPU架构“花港”。作为驱动千行百业数智化转型的核心引擎,新架构在计算密度、能效、精度支持、图形技术等方面实现了全面突破,相较于前代产品展现出显著的技术优势。
张建中在演讲中详细介绍了架构的核心创新点。在计算性能上,“花港”架构采用了新一代指令集,算力密度提升50%,能效大幅优化,可以支持从FP4到FP64的全精度端到端计算,并新增MTFP6/MTFP4及混合低精度支持。
![]()
异步编程与超大规模互联是当前AI芯片发展的关键,对提升单芯片/单节点的算力利用率,以及突破单芯片算力上限,支撑集群化协同计算有着关键作用。“花港”集成新一代异步编程模型,有效优化了任务调度与并行机制,并通过自研MTLink高速互联技术,可支持十万卡以上规模的智算集群扩展。
在图形与AI深度融合方面,“花港”内置了AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate,实现图形渲染与智能计算的高度协同。在全栈自研与安全可信方面,架构基于全栈自主研发,拥有扎实的专利壁垒,具备全栈自研与自主可控的核心能力,通过四层硬件安全架构,提供从芯片到系统的可验证安全守护。
双芯片路线持续推进技术演进
基于“花港”架构,张建中公布了未来将发布的两款芯片技术路线——华山系列与庐山系列。华山系列将专注AI训推一体与超大规模智能计算,集成新一代异步编程与全精度张量计算单元,支持从FP4至FP64的全精度计算,为万卡级智算集群提供稳定高效的算力支撑,将成为构建下一代“AI工厂”的坚实底座。
庐山系列专攻高性能图形渲染,其图形性能实现全面跨越:AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,并显著增强纹理填充、原子访存能力及显存容量。此外,其还将集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎,为3A游戏、高端图形创作提供强大算力支持。
![]()
从2022年开始,摩尔线程已经经历了MUSA架构的5次迭代升级。S10基于苏堤S10架构,为摩尔线程首款全功能 GPU,重点解决信创市场 PC GPU 的国产化问题;其他还有面向桌面级显卡的S60,和数据中心级计算卡的S2000。S80基于第二代春晓架构, 为国内首款消费级国形GPU,S3000服务器级云端渲染卡。S4000采用第三代曲院架构,实现更高性能的训推一体能力,可实现千卡集群。S5000采用第四代平湖架构,支持万卡级集群。
万卡集群加速国产智算基础设施布局
除芯片之外,摩尔线程还在本次大会上正式发布了夸娥万卡智算集群。大规模智算集群的建设面临的挑战很多:一是在大规模训练中如何高效并行训练,如何高精度仿真,如何大规模训线调度等;二是在高性能训练中,如何实现FP8/FP4低精度训练,如何实现高性能算子/通算掩盖等;三是如何保证大规模集群训练的高容错性,如何实现自动故障分析等。
经过摩尔线程的深入开发,目前夸娥万卡智算集群有效解决了上述难题,具备了全精度、全功能通用计算能力,在万卡规模下实现高效稳定的AI训练与推理。根据张建中的介绍,夸娥万卡智算集群取得多个核心突破:浮点运算能力达到10Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,与国际主流生态高度兼容,并在多项指标上具备显著能效优势。
![]()
在训练侧,基于原生FP8能力完整复现顶尖大模型训练流程,并在多项关键精度指标上达到国际主流水平。Flash Attention算力利用率超过95%,并突破FP8累加精度等关键技术瓶颈,充分释放国产GPU在大模型训练中的性能潜力。
在推理侧,摩尔线程联合硅基流动,经过系统级工程优化与FP8精度加速,在DeepSeek R1 671B全量模型上实现性能突破:MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,树立国产推理性能新标杆。
面向未来,摩尔线程还发布了MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力,为下一代超大规模智算中心构建兼具超高密度与极致能效的硬件基石。
从AI大模型到具身智能多元化场景适配
在推出一系列重点技术产品的基础上,摩尔线程还积极推进产品技术的应用与场景落地。本次大会中就设立了超过20 场技术分论坛,议题覆盖智能计算、图形计算、科学计算、AI 基础设施(AI Infra)、端侧智能、具身智能、开发者工具与平台等关键领域,促进了前沿技术与产业实践的深度融合。
在AI计算领域,摩尔线程的技术已成功应用于AI大模型训练与推理、端侧智能、具身智能等场景,为相关企业提升研发效率、降低算力成本提供了有力支撑。例如,摩尔线程与玻色量子合作,打造量子原生AI新型生成式模型QBM-VAE,结合深度学习与量子计算优势,用于数据生成、数据降维与映射、异常检测等。在6G加速方面,摩尔线程与ZGC-XNET合作,打造AI+6G通信的边缘智能算力平台,实现AI与通信的双向赋能。
![]()
在图形计算领域,摩尔线程持续推动国产GPU向兼容性更广、技术更深的方向发展。其产品已全面支持DirectX 12、OpenGL 4.6、Vulkan 1.3等主流图形与计算API,并与国产主流CPU及操作系统完成了全栈适配,持续扩展游戏及专业应用的兼容覆盖。在核心渲染技术上,摩尔线程实现两项关键突破:一是基于“花港”架构的强化硬件光线追踪加速引擎,可实现对DirectX Raytracing (DXR)的支持,使实时、逼真的光影效果在国产GPU上成为可能。二是推出全自研MTAGR 1.0技术,推动渲染技术范式从“计算”走向“生成”,为下一代数字内容创作及数字孪生等场景构建国产技术基座。
在具身智能领域,摩尔线程发布了MT Lambda具身智能仿真训练平台,深度融合物理、渲染与AI三大引擎,构建了开发、仿真、训练的高效统一环境。同时推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案,并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA,以开放协作助力机器人产业研发效率提升。
在前沿融合计算探索方面,MUSA生态已与合作伙伴在科学智能(AI for Science)、量子科技、AI for 6G等前沿交叉领域展开探索工作,持续拓展全功能GPU作为通用算力底座的技术边界与应用价值。
此外,在工业智造、智慧医疗等热门领域,摩尔线程的技术与解决方案也已实现深度融合,切实推动了行业生产效率与服务质量的提升。
展览区解锁摩尔线程技术应用价值
为更加真实地展示应用场景,本次大会上摩尔线程联合众多生态伙伴打造了超过1000㎡的展览展示区,通过丰富的案例分享与现场展示,全面呈现了摩尔线程在多领域的落地实践成效。
AI大模型&Agent展区展示了摩尔线程开发的突破训练容错瓶颈的零中断容错方案。大规模智算集群常因节点故障导致训练中断。传统容错方案需要中断任务、移除故障节点、接入备机并回滚至最近检查点再重启,整个过程会造成大量计算资源与训练时间的浪费。摩尔线程创新推出KUAE集群零中断容错方案,通过DP组级故障隔离机制,在发生故障时仅隔离受影响节点所在的DP组,其余组别继续训练;备机或修复节点接入后,仅需重建对应DP组通信链路,全程无需整体训练中断,显著提升了集群有效算力利用率与训练连续性,从根本上解决了因节点故障导致训练中断和资源浪费的问题,为大规模AI训练任务提供了稳定高效的运行保障。
![]()
在具身智能展区展示了摩尔线程联手景业智能打造VR遥操作机器人系统。该方案可依托摩尔线程MTT E300 AI模组与MTT S80显卡的协同算力,操作人员通过佩戴VR眼镜,即可远程精准控制特种机器人,在实际辐射等高风险环境中完成精细任务。
在数字人展区,依托摩尔线程全功能GPU,在端侧即可流畅渲染高精度数字人,兼容多种主流大语言模型,支持触控、文本、知识库、语音等多模态交互。
在视频多媒体展区,摩尔线程开发的端侧实时视频超分技术MTVSR,可提供2倍-4倍的实时视频超分,并提供多档质量设定,能够显著提升低分辨率视频在高分辨率屏幕下的播放清晰度。MTVSR还将以SDK形式支持播放器、浏览器等App集成调用,可为终端用户提供无缝的实时视频超分体验。
构建国产GPU应用生态闭环
为推动国产GPU应用生态的可持续发展,摩尔学院也正式亮相。其是摩尔线程创立的专业GPU技术培训与交流平台,专为GPU开发者、科研人员以及产业实践者设计,提供从入门到精通的全方位培训。学院汇聚行业顶尖专家和生态合作伙伴资源,课程内容广泛覆盖人工智能、数字孪生、加速计算等多个前沿技术领域,可帮助学员掌握尖端技术知识,拓展创新视野。截止2025年12月,摩尔学院已经汇聚了20万名先行者和探索者。
目前,摩尔学院正在加速建设MUSA生态中心,为所有开发者提供多方面的支持,包括核心技术支撑,展示成果和交流创新,人才培养基地,创新孵化和服务平台。为此,摩尔学院精心设计了一系列“开发者计划”,如星火未来、启航大赛、精英开发者、灯塔科学家等,通过开放算力资源与深度的技术支持,推动产业生态的繁荣发展。
![]()
摩尔线程还特别推出了,为AI学习与开发者设计打造的个人智算平台——MTT AIBOOK AI算力本。其搭载摩尔线程的“长江”智能SoC芯片,集成了CPU、GPU、NPU、VPU、DPU、DSP、ISP等计算单元,提供50TOPS异构AI算力,支持混合精度计算,将成为开发者的最佳开发工具。
总之,通过本次大会上的一系列成果发布,标志着摩尔线程已成功构建起一套以自主统一架构为根基、贯穿“芯-边-端-云”的完整技术栈,实现了从底层硬件到上层应用的系统化闭环。该体系可以为国产智能计算生态的持续演进与产业融合,提供坚实、开放且可持续的平台级支撑。
谈及未来发展,张建中表示,摩尔线程将持续深耕全功能GPU核心技术,不断完善以MUSA 为核心的全栈生态布局,进一步提升产品性能与行业适配能力。同时摩尔线程也将继续携手全球合作伙伴,深化技术与场景的融合创新,加速推动国产 GPU 技术在千行百业的落地应用,助力产业数智化转型提速增效。





京公网安备 11011402013531号