编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI
当国产AI芯片接连发布、估值高涨之际,一个尖锐的问题依然悬在头顶:它们真的能撑起下一代万卡集群与万亿参数模型的训练吗?
一边是市场对替代方案的迫切期待,另一边是英伟达在利润与估值上仍高歌猛进……
百度智能云AI计算首席科学家王雁鹏在量子位MEET2026智能未来大会上,基于百度昆仑芯在大规模生产环境中的实战经验指出:
评判芯片实力的标准已从单纯的算力数值,转向了能否稳定支撑从百亿到万亿参数、从稠密模型到MoE架构、从单模态到多模态的完整模型谱系训练,并能在万卡乃至更大规模集群上实现高效扩展。
在演讲中,王雁鹏系统拆解了大规模训练中集群稳定性、线性扩展与模型生态三大核心挑战的攻坚路径,并回应了行业对MoE时代硬件路径的关切。
他认为,即便是参数激增的MoE模型,“小芯片搭大集群”的路径依然可行,其关键在于极致的通信优化与系统级协同设计。
![]()
为完整呈现王雁鹏的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能给你带来更多启发。
MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。
核心观点梳理
国产芯片的替代有一个渐进式的过程,昆仑芯从第一代开始已经做到了在搜索线上系统全量用推理,真正难的是在大规模训练场景。现在Scale换了一个维度,变成了模型参数的Scale和任务训练规模的Scale,由此带来了整个系统层面的Scale,映射到硬件上就有不同的size、各种形状、不同的切分策略和并行策略。当前重要发展方向是MoE,它在某种程度上延续了原有的Scaling Law,能够继续扩大参数规模,同时不增加激活参数规模。但系统层面会面临新的挑战:模型参数变得更大、输入序列变长,通信占比显著提升,占比提升意味着整个模型架构都要有变化。当前我们在百度Qianfan VL、百度蒸汽机都取得较领先的模型效果,并已经实现全栈基于昆仑芯的训练。以下为王雁鹏演讲全文:
真正的困难在大规模训练场景里
大家好,我是来自百度智能云的王雁鹏,我很长一段时间都在负责AI基础设施建设的工作。今天想跟大家分享的内容是,我们如何在生产环境中规模化应用我们的国产芯片
最近国产芯片热度很高,很多产品陆续上市,也获得了很高估值。似乎国产芯片马上就要在大规模生产环境落地。但同时,英伟达仍然保持极高的利润率和上涨的估值,市场仍然在购买其产品。
这两个看似矛盾的现象背后,其实反映了一个事实:要真正把国产芯片用起来,难度依然非常大。不仅如此,除了英伟达之外的国际芯片供应商,也同样没有在大规模训练场景中真正跑起来。
国产替代一定是渐进式过程。大家都知道在推理场景中问题不大,例如昆仑芯从第一代起就已在搜索线上系统实现全量推理,真正困难在大规模训练场景里面。
第一大挑战:集群稳定性
大规模训练往往是上万卡的同步系统,任何一台卡中断都可能导致任务重启。
比如,在100张卡的时候有效训练时间是99%,但当1%时间因为中断浪费的话,线性扩展到一万张卡则意味着整个集群不可用了。因此,第一个要解决的便是集群稳定性问题。
在芯片层面,GPU天生是高故障率器件:晶体管数量多、算力高、功耗大,同时专注于计算导致监控能力弱,整体比CPU的故障率高出多个量级。
在这方面我们有两类经验:
1、事前精细化监控与验证:
我们必须假设芯片可能存在各种问题——运行变慢、精度异常、数据不一致等,因此需要系统级手段提前定位可能的故障,而不能依赖芯片自身的报错能力。尤其是在静默错误场景中,系统需要能够精准定位故障节点,否则训练会长期无法复现。
2、故障后的快速恢复能力:
无论故障率如何,总要避免大规模重算,因此我们构建了透明Checkpoint和快速恢复机制,尽量减少损失。
第二大挑战:让集群真正扩展起来
一个万卡集群必须实现线性扩展,否则只有千卡、两千卡的规模意义不大。
我们大致经历了三个阶段:
百卡集群上,验证技术可行性,关键在于RDMA通信技术的适配与优化。
千卡集群上,由于网络不再对等,比如我们不能把任何两个芯片或者两台机器看成在网络任何地方部署性能都一样,因此也需要做好网络亲和性调度等复杂优化。
万卡集群则是更大的挑战,面对多任务、多并行策略(PP、TP、EP 等)带来的流量竞争,必须实现芯片与网络的联合设计。
![]()
我们的核心逻辑叫:XPU驱动的any to any的通信
以XPU为核心,在通信过程中绕过CPU各种影响,直接用XPU驱动我们的网络。针对不同流量有不同优先级做整个任务的最优,经过这一点我们可以把大规模扩展做上去。
第三大挑战:模型生态与精度体系
英伟达最强的护城河并不只是硬件,而是过去十多年沉淀的模型生态:成千上万种模型变体、算子体系、框架适配,这些都让英伟达在训练精度上保持绝对稳定性。
在大模型时代,由于Transformer这套架构相对统一,国产芯片迎来了机会。
但可能很多人忽略的一点是:
现在Scale换了一个维度,变成了模型参数的Scale和任务规模的Scale。而这意味着模型参数可以有不同的规模,例如十亿、百亿、千亿,同时我们可以跑到不同硬件平台上,比如百卡、千卡、万卡,这两个维度的Scale则会带来整个系统的Scale。
![]()
不同于原来模型架构的Scale,算子映射到硬件上面会有不同的size,不同形状,不同并行的策略,这个情况下算子能不能稳定地跑出来。我们看到它会在精度和性能上都会存在挑战,尤其是精度方面的挑战。换了一个平台,甚至可能因为“算子写得不对”、“精度差一点”都可能导致两个月的训练白跑。
因此我们做了高度泛化的算子体系,针对不同的算子的size做了高强度的泛化,同时在泛化基础上还做到小规模验证精度,避免每次都使用万卡对比,从而保证大规模训练的可靠性。
MoE模型与多模态模型的新挑战
当前重要的发展方向是MoE,它能在不提升激活规模的情况下扩展模型参数,延续Scaling Law。
但MoE基础上对系统架构也带来新的挑战,模型参数变大了,输入序列变长,意味着通信占比提升了,对整个模型架构都会有改变
因此需要极致的通信优化,以及显存的协同,与计算overlap,来完成MoE系统的适配。
![]()
我们的结论是,即便是MoE模型,小芯片搭大集群的方式依然可行
多模态模型则带来另一类问题,不同的模态会带来不同的训练强度,不同模态的计算,还用原来的同构拆分方法的话会导致训练的效率非常低,典型情况下MFU可能都不到10%。
![]()
针对这个需要做异构数据均衡的调度,适配异构并行策略,使得系统能够根据我们workload动态地做并行策略。不管模型是什么样的,都能找到最优的运行策略适配模型,在这一块需要做优化。
衡量国产芯片“能否真正用起来”的标准,我们认为有两个关键维度:
模型覆盖能力:覆盖大语言模型、多模态、文生视频等完整体系。集群规模能力:从百卡到千卡再到万卡全覆盖。
目前我们在模型覆盖上基本达到主流大模型体系,在规模上已能跑万卡任务,未来还会向数万卡推进。
![]()
最近大家关注TPU,就是因为Google能够用非常优秀的Gemini证明TPU的训练能力——模型绑定硬件,硬件才能真正被接受。
同样,昆仑芯也需要绑定优秀的自研模型。
当前我们在百度Qianfan VL、百度蒸汽机都取得较领先的模型效果,并已经实现全栈基于昆仑芯的训练。未来我们会继续努力,让更先进的模型在我们昆仑芯上面全栈训练出来。





京公网安备 11011402013531号