当前位置: 首页 » 资讯 » 科技头条 » 正文

摩尔线程打造大模型训练超级工厂

IP属地 中国·北京 编辑:朱天宇 时间:2025-07-26 12:15:13

7月25日,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,提出“AI工厂”理念。摩尔线程创始人兼CEO张建中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进模型的“超级工厂”。

上证报中国证券网讯(记者 郑维汉)7月25日,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,提出“AI工厂”理念。摩尔线程创始人兼CEO张建中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进模型的“超级工厂”。

据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

五大核心要素决定了“AI工厂”成功与否。“AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。”张建中介绍道:“这些因素之间是‘乘’的关系,所以每一个环节都要做到极致。”

加速计算通用性方面,摩尔线程以全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

与此同时,摩尔线程基于MUSA架构,通过计算、内存、通信三重突破,显著提升了单GPU运算效率。并且,摩尔线程还通过MUSA全栈系统软件,提升了单节点计算效率。

而当单节点效率达到新高度,如何实现大规模集群的高效协作成为了新的挑战。摩尔线程KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

“整个集群建好后,还要看集群能不能稳定运行。”张建中表示。

在万卡级AI集群中,硬件故障导致的训练中断会浪费算力。为此。摩尔线程推出了零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。

此外,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,结合集群巡检与起飞检查,为大规模AI训练提供稳定保障。

从图形渲染基石到AI算力引擎,摩尔线程全功能GPU持续加速计算革新。张建中表示:“以‘KUAE+MUSA’为智算业务核心,摩尔线程将加速赋能千行百业,推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。”

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。