当前位置: 首页 » 资讯 » 科技头条 » 正文

大模型专题:2025AI大模型跨域训练池化调度技术体系白皮书

IP属地 中国·北京 编辑:冯璃月 刘俊达 时间:2025-08-24 02:04:02

今天分享的是:大模型专题:2025AI大模型跨域训练池化调度技术体系白皮书

报告共计:94页

2025年《AI大模型跨域训练池化调度技术体系白皮书》(紫金山实验室等编写)聚焦AI大模型跨域训练痛点,提出针对性技术体系以破解我国高端智能算力“少、杂、散”困境。当前大模型发展中,通用大模型预训练需万卡级算力,而企业大模型后训练多需几十卡规模,更适合“算力网调度”模式,白皮书区别“专用算力拉远”(适配通用大模型)与“全局池化调度”(适配企业大模型,实现“异属、异构、异地”资源调度)两条技术路线,核心架构分业务层(接收训练任务并转化为标准描述)、管控层(通过协同调度实现跨域资源管理)、资源层(整合异构计算资源),依托“广域确定性网络+智算资源并网+算网协同调度”三位一体架构,实现“异属合训、异构混训、异地同训”。关键技术上,异构混训通过模型分层拆解、自适应配置适配不同GPU;异地同训借助计算通信重叠、算网协同调度、RDMA加速网关等优化跨域效率;异属合训通过多队列协作、联合抢占、RDMA网络虚拟化打破资源壁垒。试验验证显示,2000公里广域网环境下跨域训练效率达88.75%,启用计算通信重叠后效率提升至94.26%,异构芯片混合训练效率达95.47%,广域确定性网络可抵御干扰流影响。未来将以“全国一台计算机”为目标,推进算力泛在化(整合全域资源实现按需取用)、效率本地化(优化调度与通信保持近本地效率)、生态开放化(支持多主体接入构建共赢生态),构建开放算力生态。

以下为报告节选内容

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。