当前位置: 首页 » 资讯 » 科技头条 » 正文

并行科技COO乔楠:英伟达并非断崖式领先,国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈

IP属地 中国·北京 雷峰网 时间:2025-10-22 20:13:19


国产GPU市场每年增长50%,但厂商活下去还需找到细分赛道。

作者丨刘伊伦

编辑丨包永刚

“有的项目花两三年时间把利用率做到30%,但设备寿命只有五年,等真正跑顺的时候,硬件已经过时了。”并行科技COO乔楠对雷峰网说。

他并不讳言行业的盲区,算力行业看似门槛低,“有钱就能砸进去”,但很多进入者根本不懂市场行情以及技术选型,买错算力规格、配错应用场景以及无法提供客户需要的技术服务,最终造成资源闲置。

在市场实践中,技术问题引发的业务困境并不少见。

为布局智算产业,某上市公司在对服务器设备的组网方式、存储方案、机头选型等细节毫无了解的情况下,便盲目与头部人工智能公司签订合作方案,后续因无法交付符合要求的集群设备,最终只能发布公告终止双方合作。

“早期国内的算力市场面临的最大问题就是组网,但国内不超过20个团队具备组网的能力,而这其中主要还是互联网大厂。”一位从业者表示。

已经投入到实际应用场景中的集群,也同样会面临技术风险,甚至可能因直接关联业务运转而造成更大影响。

某集团旗下DeepSeek云服务曾发生的长达12小时宕机事件,其直接诱因在于算力调度算法存在设计缺陷,在业务访问高峰期,算法无法对平台内的算力资源进行有效分配与动态调度,导致部分虚拟机因持续面临算力资源供给不足的问题,最终出现崩溃,进而引发整体云服务宕机。

这些案例都指出:技术服务能力才是算力业务可持续运营和发展的关键。

随着裸金属租赁业务趋向成熟,智算云成为了市场的新焦点,而技术服务能力则是左右智算云竞争格局的关键变量。

大厂凭借资金实力、生态规模与全链路技术储备,在智算云场景中占据天然优势。反观中小智算云公司,既难在算力规模上与大厂抗衡,也容易在技术服务的全面性上陷入被动,若找不到差异化竞争方向,很容易被挤压生存空间。

“云业务虽遵循马太效应,但并非只有大厂能存活,像混合云、政府云等细分领域,都有专业玩家的生存空间。并行科技从诞生起就深耕超算领域,积累的人才、经验与技术方法论都可以直接复用。这种‘细分领域做深做透’的策略,正是中小玩家在大厂环伺下的生存关键。而没有构建壁垒的玩家,时间线拉长后都会被逐步淘汰。”乔楠说道。

二十余年的高性能计算经验让乔楠对智算产业有更深刻的理解,他曾担任英特尔高性能计算团队经理,2015年9月加入并行科技担任应用总监,后升任首席运营官,主导技术应用落地与业务运营。

基于这样的认知,他推动并行科技打造“算力买手”模式,将超算时代的资源调度经验延伸到智算云服务,实现1小时内为客户匹配到最合适的算力资源,让供需双方高效匹配。

随着算力行业逐步进入后半场,市场的关注点也从“算力大单”、“算力贸易”回归到算力本身的技术、效率与适配性。帮助过多家芯片厂商做优化的并行科技,对国产芯片在当下的竞争环境中如何突围有怎样的理解?在超算这一细分赛道做到业内领先,又对大厂围猎下的智算云竞争生态有何看法?以及如何评定智算集群的效率,算力优化的终局又是什么?

乔楠向雷峰网分享了围绕算力产业从硬件、软件到行业生态的多维度洞察,为便于理解,访谈内容经编辑:

01

国产芯片突围策略:摒弃对「峰值性能」的过度追求,注重撬动生态杠杆

雷峰网:国内算力集群90%以上用英伟达服务器,行业里似乎有个共识,英伟达存在断崖式领先的优势,您如何看待国产芯片和英伟达的差距?

乔楠:英伟达并非断崖式领先,现在英伟达可能就领先一到两年。我们研究了英伟达的多款产品,他们现在最大的问题是芯片性能逐步接近天花板,无论是集成度还是核心浮点计算能力的平衡性,这从英伟达的芯片结构大小和成本构成就可以看出,之前是一个快速发展的曲线,现在已经平缓了许多。

在CPU时代,计算部件的工艺提升是最容易的,存储部件和网络部件的提升的速度是远远落后于CPU的,这会导致存储墙、网络墙的出现,从而影响真实应用的效率,真实应用只能达到理论峰值性能的10%-20%,而这已经是优化到极致的水平。

现在GPU也开始类似的情况,在开源案例里,真实应用下最高效率是峰值性能的50%。英伟达从V100、A100、H100、H200到B200的迭代中,内存带宽利用率的提升速度、通讯访存比的优化速度,都跟不上计算性能的提升速度,使得它真实的应用的效率并没有达到计算性能提升的水平。

雷峰网:您如何看待国产芯片的发展,国产芯片现在比较好的切入点是什么?

乔楠:国产芯片要系统的去看芯片设计,如何更好的做到应用性能的提升,而不是看标称峰值,现在国产芯片很多标称峰值也不低,但实际跑起来比不上英伟达,原因就在于芯片组的资源是有限的,比如你把90%的芯片设计都做成适合Transformer的核,但是把显存设计的特别小,那效率就有可能大打折扣,可能理论峰值性能是英伟达的几倍,但是效率就低很多。在所有推理场景中,显存带宽和显存容量是很重要的指标,H20的峰值性能只有H100的五分之一,但显存容量和显存带宽很高,所以之前在国内很受欢迎。

另一方面,芯片行业需要更多的投入生态和上下游建设,英特尔芯片组的人数跟做生态的人数比例是1:5,生态是最难的,很多国产芯片厂商会觉得自己规模较小、人手不够,这个时候就要寻找合适的上下游合作伙伴,可能你生态投入1个人就能撬动业内的10个人。

最后是市场容量的问题,以前全球只有两家GPU厂商,AMD和英伟达。当下,在没有出海的情况下,国产GPU厂商爆发到了十几家,不可能每一家都能存活下去,中国这个市场每年能增长50%,但厂商想要活下去还是要找到自己的细分赛道。(国产算力替代“来势汹汹”,关于国产GPU厂商更多的产品细节及幕后故事,欢迎添加作者微信YONGGANLL6662交流更多信息)

雷峰网:如果国产芯片厂商找到并行科技,并行科技能怎么帮他去丰富生态?

乔楠:主要是两个方面,一个方面是我们有一个团队可以帮助国产芯片厂商做移植适配,去加速产品的应用落地。另一方面,用户使用并行科技的算力,其实并不在意底层用的是什么芯片,只要求输入输出的速度更快,并行科技打造了一套帮助国产芯片做验证的架构,验证精度、算法、性能没问题,就可以用性价比最好的国产芯片的解决方案。

雷峰网:并行科技提到要“提升基础架构设计能力”和“优化基础支撑组件”,具体的实施路径是怎样的?

乔楠:核心优化逻辑是“从硬件到软件的全链路适配优化”,具体分三个方向落地:

第一个是性能诊断工具,我们做了Paramon应用运行性能分析平台,它就像“CT扫描仪”,能够扫描智算集群,找出硬件设计问题和软件适配问题,然后找到关键路径以及热点函数,从硬件设计和软件优化相结合的方式去提升整体系统的性能。

第二个是国产芯片的适配,现在英伟达的middleware(中间件)、SDK和生态都是最好的,很多国产GPU的适配性存在问题,需要做大量移植和优化。并行科技有个几十人的优化团队与国产芯片厂商保持合作,最近一年已经把上百款应用移植到国产GPU上,取得不错的成效,具备一定的竞争力,并不像外界所说的与英伟达的差距很大。

第三个是生态合作与人才储备。比如,中国最优秀的体系架构人才来自于清华,而清华最优秀的体系架构人才来自于计算机系,其中的一个创业团队就是清程极智,并行科技与清程极智会在底层架构设计上进行合作。另外,我们每年举办PAC并行应用挑战赛,现任Meta超级智能实验室成员的余家辉就是PAC2015届冠军,2014届冠军目前在并行科技做优化方向。

最后是要尽可能刺激需求的发生,让需求更快、更广泛地落地。一个是创新应用场景的发现和推广,一个是降低成本。降低成本又分两类,一类是硬件成本的下降,它基本是摩尔定律式地往下降,每年25%,但这是远远不够的,所以大部分的成本下降来自于软件栈成本的下降,以DeepSeek为例,百万Token的成本翻番地往下降。年初到现在,并行科技在DeepSeek上做的优化基本上实现了几十倍的性能提升。

02

智算云“生存战”:大厂围猎下,押注「细分赛道」或是唯一生路

雷峰网:当下的算力行业暴露了许多问题,比如服务器租金下降引发的违约退租,您觉得这些现象背后的核心原因是什么?

乔楠:表面是短期的供求关系问题,但是核心是算力行业的“重资产+快折旧”属性,再叠加部分参与者的认知偏差。

首先,算力是个重资产投入的行业,投入后的出清过程较长,属于典型的投入高但回本周期长的生意。设备投下去后利用率上不来,运营方只能亏本经营,能做到收入覆盖电费,都算挽回了部分损失。

其次,行业看似门槛低,“有钱就能砸进去”,但很多进入者根本不懂技术选型,比如买错算力规格、匹配错应用场景,导致算力资源的错配。

地方的一些指导也存在偏差,认为可以参照IDC建设的成功经验,适度提前布局算力基建,但算力设备的使用年限很短,是一个快速折旧的产品,一般折旧周期就5年,很多地方的项目耗费很大精力,用两三年的时间把服务器的利用率做起来,往往这个时候设备就过时了。好在国家今年已经注意到这个问题了,也在出台一些政策。

雷峰网:算力资源错配严重,那智算云、算力平台或算力网,是不是解决这一问题的有效手段?

乔楠:肯定能在一定程度上解决供需错配的问题,核心逻辑很简单,无论是“东数西算”还是算网协同调度,本质都是用“连接”把分散的需求和供给匹配起来,加快交易节奏。

以并行科技为例,我们通过算力网络模式已接入47家智算中心和15家超算中心,并根据用户不同的行业属性和应用场景的差异化,对一些算力集群进行适当改造,把这部分算力资源与用户的场景和应用特征相匹配,提升算力中心的利用率。算网不只是“技术调度网”,更是“交易调度网”,不能只盯着技术参数,还要帮供给端找到精准需求,这才是解决错配的关键。

雷峰网:并行科技有通过改造算力集群,从而提高其算力利用率的具体案例吗?

乔楠:早期我们对接过一个供应商,他们把算力集群的计算访存比设计得特别小,导致集群只能支撑10%左右的工作负载,基本处于“闲置”状态。我们介入后,第一步是加大存储和内存配置,调整硬件适配逻辑;第二步是通过算网平台筛选适配的用户场景,比如把它对接给计算压力中等的科研项目。改造后,这个集群的工作负载提升到60%,而且接入了上千个客户。

雷峰网:并行科技针对不同场景推出了超算云、智算云、智造云,这么细分的布局是基于什么判断?

乔楠:之前在英特尔、联想及HPC厂商做超算的人,后来都散落在智算这个行业里,业内共识是智算就是超级计算的一个细分场景,优化的方法论和设计的方法论都一样,只不过针对的场景是GPU场景,本质上都在遵循更快、更强的原则。

超算云、智算云、智造云是针对不同场景的超级计算机云化产品,这是并行科技跟云大厂的区别,云大厂这几年才开始布局智算,但并行科技从诞生的第一天起就在做这个事情,所以并行积累了很多人才、经验和Know-how,这些积累可以让并行科技在任何底层还是超级计算机的风口上复用。

雷峰网:您提到超算和智算的方法论相通,那是不是可以理解为,有超算经验的团队做智算,会有“降维打击”的效果?

乔楠:2003到2004年期间,我就在参与优化联想深腾6800超级计算机,篮球场大小的设备,几百台设备总共发挥的算力是4TFlops,现在一张GPU算力卡就远超这个水平。当然,浮点精度有差异,早期是双浮点,现在是半精度,差了8倍左右,但从量级上看,过去是T级,现在是P级(1PFLOPS=1000TFLOPS),20年里芯片集成度提升了很多。

从超算到智算,有很多经验确实能复用,而且效率差距很明显。比如一个从零开始的智算团队,要run up起来至少需要3到5年,而有超算经验的团队,一两个月就能落地。

雷峰网:云业务很注重营收规模,技术收敛之后,如何面对与大厂的竞争?

乔楠:营收规模是成功的必然因素之一,只要符合马太效应的业务,都会有这样的特性,但这不意味着最终只有一两家公司能胜出。

跟传统的云业务一样,会有很多在细分赛道里存活下来的企业,有混合云、政府云,并行科技是超算这个细分领域的第一名,只要能够找到一个细分的业务场景,这个业务场景跟云大厂有一定的差异化,就能够活得还不错,但把这件事情做好也面临比较高的门槛,长期来说小玩家一定会消失,但是会有一批细分领域的领头羊活下来。

雷峰网:并行科技打造的“算力买手模式”很受行业关注,这种模式的核心是什么?

乔楠:算力买手模式的本质,是用并行的专业能力帮用户避坑,核心是从需求出发,1小时内匹配最优算力。

第一步是需求拆解,比如,用户说要跑大模型训练/推理,就需要进一步问清楚“模型参数(7B/13B/70B)、训练周期、精度要求、成本预算”,同时把程序的应用运行特征画出来,是计算密集型,现存带宽密集型,还是网络通信密集型?这是第一层分析。再细展开,例如,计算密集型又可以拆成对fp32,fp16,fp8的GPU利用率的呈现。我们把用户的需求和应用特征一层层列出来,就可以把模糊需求转化为具体参数,比如“需要16张显存≥40GB的GPU,计算密集型,FP8精度要达到xxpflops浮点峰值,显存带宽与节点内节点间带宽不是主要瓶颈,GPU机头的内存带宽要达到300GB/s,单卡时成本≤2元,等等”。

第二步是资源筛选,并行科技接入了几百家超算、智算中心和算力厂商的资源,会根据用户参数自动筛选,排除不符合的选项。比如用户要单卡时成本≤2元的,就排除溢价高的厂商,最后剩下3-5个候选。

第三步是方案整合,我们会对候选资源做二次验证,比如测试某款国产GPU的模型适配度、某智算中心的网络稳定性,然后把最优资源整合到并行的算法平台里,给用户提供一站式服务。

雷峰网:算力的高投入意味着很多时候需要为客户提供定制化服务,这会不会导致公司的人员压力很大?

乔楠:按照二八定律,对大客户肯定要实行定制化服务。对于中小客户,并行科技会提供7×24小时的服务,并且是分钟级的响应,工程师几乎都是硕士生,这个活还是很苦很累的。

不过,AI时代我们也做了一些智能客服去做补充,基于我们之前积累的数据以及专家库开发了一套客服系统,包括消息传送以及智能的数据挖掘。目前,我们已经积累了几百万条技术服务相关的数据,这都是私域数据,训练出来的系统有很高的专业度,现在基本上服务响应每年能够提效25%。

雷峰网:并行科技的服务也在遵循摩尔定律。

乔楠:对,我经常跟技术服务的负责人说,你今天服务了一卡时,你明年再服务一卡时的含金量就下降了不少,我们的服务也需要遵循摩尔定律,不断扩大服务的效率。

03

智算集群迭代方向:异构推理存在合理性,优化的终局是打通产业链

雷峰网:现在开源模型越来越多,很多行业也打造了垂直模型,模型数量增加对AI Infra这一层会有什么样的影响?

乔楠:肯定是好事,开源模型越来越多会对AI架构、AI Infra产生刺激作用。

知识的开放、架构的开放会吸引越来越多的人参与进来,底层的体系架构能够产生正反馈,就会有越来越多做AI Infra的人参与开源模型的优化和合作,形成一个正循环,这是软硬件双方互相协同开放之下产生的。

早在CPU时代,异构一直是体系架构和软件层面之间的一个矛盾。英伟达的强大主要在于CUDA生态,而打造CUDA生态的原因就是传统CPU的编程模型不适合GPU,开发者在GPU上进行开发门槛太高。

开源模型多了之后,Paramon就可以在开源模型上去做非常多性能数据的采集,使我们对不同硬件的理解加深,并推动相应的硬件进行改造,让强大的开源模型有越来越多的硬件去匹配,如果行业内都是封闭模型,就很难去推动这个事。

雷峰网:国产算力替代让异构集群的概念很火,但有业内人士认为异构集群是一个“事倍功半”的伪命题,您如何看待这一观点?

乔楠:首先异构有很多定义,多个集群异构、单个集群多个节点异构以及节点内部不同的异构,以及单个集群不同芯片的异构。异构集群是具备合理性的,以DeepSeek为例,它有Prefill阶段和Decode阶段,这对硬件的要求是不一样的,一个是计算密集型,一个是显存密集型的,这两个阶段完全可以拿不同的硬件去匹配,这个就是具备合理性的异构。

很多人认为异构集群有问题,是因为在训练场景里,异构集群是不成立的。训练场景的算法是把一个任务分到不同的计算单元,每个计算单元和计算节点做相同的任务,而且他们非常紧耦合的互相通讯来同步一些进展,在这种条件下,就会出现木桶短板效应,任何一个节点的性能差都会影响到整个集群的性能,使得整个集群的性能以最差的节点为单位×整个节点的数量。推理阶段的算法变化使得异构集群有了可能性,而且有可能会提升性价比且降低成本。

所以说在未来的多场景下,国产芯片厂商一定要找到一个细分产品,然后成为第一名,好比一些芯片,甚至不是冯诺依曼架构、不是以计算为中心点去设计,而是以显存为中心点去设计,这些可能性都是存在的。

雷峰网:很多人会用MFU(模型算力利用率)评价集群效率,您觉得评价集群效率的核心指标是什么?

乔楠:MFU是主要指标,但不是唯一指标,影响集群效率的第一因素是利用率,如果集群整体利用率低,那单节点利用效率再高,整体效率还是差。比如一个集群有100个节点,只用到20个,就算这20个节点MFU达到90%,整体效率也只有18%。

其次,MFU的解读要结合场景,尤其是推理场景。比如有的推理集群MFU绝对值很高,但SLA(服务质量)差,几秒钟才输出一个Token,那MFU再高也没意义,用户要的是“有效输出”。MFU的真正价值是“衡量非计算部件的瓶颈”:MFU越高,说明存储、网络等非计算部件的瓶颈越小,计算部件能更高效运转,所以行业才一直拿MFU作为一个主指标,而这里面其实也藏着很多发展的趋势。

雷峰网:有业内人士认为“最大程度地利用计算资源”其实就是算力优化这个道路上最终评价技术好坏的标准,您如何看待这个观点?

乔楠:利用计算资源很重要,但不是终局,终局是设计,利用是现有的拼凑,最根本的是设计好计算资源,而设计的定义就有很多方面,比如不是设计计算资源,而是设计计算资源网络,单一的结点、单一的集群只是在这个层面上的性能点,但是从全局点来说,利用率的矛盾大于部件的性能,全局算网的级别是高于单节点或单集群的性能的。

此外,如果终局是利用,那只能在卖场的这个层面,但终局其实是要打通产业链的,就不仅仅局限于算力部件,甚至是IDC、能源,把产业链的每一个点优化到极致。

雷峰网:算力行业在逐步走出早期泡沫阶段,您对算力行业未来的发展趋势有怎样的研判?

乔楠:做好算力服务的难度是非常大的,高投入、高风险,你一旦做不好,可能就会造成算力资源的错配。现在硬件飞速发展,摩尔定律在一定程度上依然发生作用,而软件的发展是十倍于摩尔定律的。这就意味着你今天采购的设备,它适合DeepSeek3.0,但DeepSeek4.0出来后,它的应用的热点有可能完全变了,对硬件的要求也就变了,前期的硬件投入就可能血本无归。

对芯片厂商也是一样的,有些硬件大厂早期用INT8计算格式,但现在FP8才是主流,这就会导致厂商推动这一部分业务比较艰难,因为它的准确度受到了影响。当然现在也及时推出了FP8,但是业内是不是会变成FP4呢?也很难判断。

算力是一个周期性的行业,有淡季和旺季,几年供过于求,几年又供不应求。因为本质上这是一个比较滞后,但是出清时间比较长的行业,大家说算力紧张了开始建设了,建完一年过去了,所以他是滞后的,但是出清又艰难,这就导致了周期性,而周期性本质就是错配。

但行业整体是向上发展的,只是有波峰波谷,所以长期是乐观的,短期是痛苦的,现在是很残酷的,未来也只有少数细分领域的头部玩家能存活。

专题介绍

2023年来,智算产业迎来爆发式增长。但两年过去,国内智算企业的生存状态如何?在技术突破与场景落地中做了哪些新探索、又面临什么新挑战?智算行业的未来还有什么想象空间?本专题与一众智算领域的先锋从业者对话,回顾近年智算行业在技术与商业上的拓展实践历程,并展望未来发展方向。即便身处行业气候更迭之际,从业者们凭借智慧与韧性、怀揣对智算未来的坚信,开辟多样化发展路径。对此专题感兴趣的从业者,欢迎添加微信 YONGGANLL6662 共同参与讨论。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。