当前位置: 首页 » 资讯 » 科技头条 » 正文

云天励飞罗忆:推理超越训练,国产算力的真正战场在生态与成本丨GAIR 2025

IP属地 中国·北京 雷峰网 时间:2025-12-18 10:21:05



推理正在首次超过训练,AI真正开始「用电而不是发电」。

作者丨杨依婷

编辑丨包永刚

2025年12月12-13日,第八届GAIR全球人工智能与机器人大会在深圳·博林天瑞喜来登酒店正式启幕。

作为AI 产学研投界的标杆盛会,GAIR自2016年创办以来,始终坚守“传承+创新”内核,始终致力于连接技术前沿与产业实践。

在人工智能逐步成为国家竞争核心变量的当下,算力正以前所未有的速度重塑技术路径与产业结构。13日举办的「AI 算力新十年」专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到产业化落地展开系统讨论,试图为未来十年的中国AI产业,厘清关键变量与发展方向。

GAIR 2025「AI 算力新十年」专场上,云天励飞副总裁罗忆发表了题为《芯智AI筑基,普惠点亮未来》的主题演讲,系统阐述了他对国产芯片路径和AI普惠化的核心判断。


当大多数人还在讨论人工智能“是否有用”的2014年,一家中国公司已经选择了一条更难、也更远的路——同时押注算法与芯片,试图从底层构建属于自己的AI技术体系。此后十余年,从深度学习的早期探索,到大模型席卷全球,再到算力成为国家级命题,这家公司几乎完整经历了中国人工智能产业从萌芽、加速到分化竞争的全过程。

某种意义上,云天励飞本身,就是一段中国AI产业的微观缩影。

云天励飞副总裁罗忆,正是这段历程的重要参与者与推动者之一。早年,他需要一次次向客户和产业界解释“人工智能究竟能解决什么问题”;而今天,在推理成本、算力结构与生态壁垒成为行业核心议题的背景下,他思考的重心,已转向如何让AI真正“用得起、用得久、用得广”。

与许多聚焦单点技术突破的叙事不同,罗忆的视角始终锚定在一个更现实、也更具产业意义的闭环之中:应用生产数据,数据训练算法,算法定义芯片,芯片赋能应用,最终推动整个AI生态的正向飞轮。在他看来,AI的竞争不只发生在实验室和算力榜单上,更发生在真实行业、真实成本与真实规模化落地的场景之中。

在国产算力加速突围、推理逐渐超越训练成为产业主战场的当下,这种来自一线实践者的判断,尤显珍贵。它试图回答的,并非“能否对标某一家巨头”,而是一个更根本的问题:在高度封闭、生态壁垒森严的全球算力竞争格局中,国产芯片究竟应当如何找到自己的生存空间与增长路径。

演讲结束后,雷峰网与罗忆就演讲中提及的“生态融入”、“AI惠普”等关键议题,进行了更深入的探讨。以下是雷峰网在不改原意的基础上,根据对话过程做的整理与编辑:

01

对话环节

问:您在演讲中回顾了科技史的发展,云天的AI芯片也跨越了CNN到Transformer,您认为两个时代对于芯片需求最大的不同是什么?

答:从云天选择NPU路线一路走来,现在面临一个最显性的变化:Scaling Law驱动下,技术瓶颈开始螺旋式地出现。最初是算力瓶颈,随后发现本质是内存容量瓶颈,接着是带宽瓶颈,再后来瓶颈从芯片内部扩展到服务器之间,这才催生了“超节点”这类系统级方案。这反映出一个根本转变:今天的芯片公司早已不止于设计芯片,必须提供全栈的系统工程能力。

其次是市场加速度带来的生态压力。从去年到今年,市场推理需求增长近百倍,模型迭代周期从过去的数月缩短至如今几乎每周更新。曾经做NPU可以“慢工出细活”,花三个月将算法优化到极致;但现在三个月时间窗口早已关闭,新模型已迭代数轮。因此,我们必须主动兼容并融入CUDA在内的主流开发生态,否则客户的迁移与适配成本会显著上升,商业化节奏也会被拉慢。本质上是技术突破带动产业化进程极速压缩,过去半年一年遇到一次的瓶颈,现在可能三个月就遇到,推动技术螺旋式前进。

从中国路径上讲,我们肯定还是两条腿走路。国产生态,不管是RISC-V还是像昇腾这样的国产万卡生态,它还得自己要慢慢走。另外一方面,也必须融入高速迭代的CUDA生态,这个逃不掉。

问:在Transformer时代,要让推理能够更成功,你感觉比较关键的因素会是什么?

答: 从我们的角度,总体上来讲走向最终成功是要融入生态或者是拥抱生态。但是作为一个追赶者,进来之后必须得有自己的价值,要有一技之长,要有一个特别长的长板,然后才有时间换空间,去慢慢弥补自己的短板,慢慢融入到生态。

问:您讲到中国更强调普惠AI的应用渗透,那您认为当下AI推理普及面临的最大挑战是什么?降低单位token成本吗?

答: 我觉得显然就是成本问题。大家希望AI越来越精准来达到行业使用的要求,以前发现再努力也做不到、现在就发现其实通过努力,通过长思考、长上下文的理解、带入私域的知识是能做到的、但代价很大,那么怎么选择?所以后面就是降本的问题了。

问:您认为从芯片公司的角度,要在推理市场构建护城河的关键是什么?

答:融入生态护城河。现在很多圈子都是“互为生态”的格局,每种核心技术都有它的适用方上下游。狭义来说,生态其实就是自己的上下游,但如今技术栈实在太深、太广,每一个细分领域都在形成自己的生态圈。

比如最近我们也参与了中移动提出的OISA体系,共同突破万亿级MoE大模型推理集群Scale up的瓶颈,围绕 AI 芯片互联、超节点等系统级方向与产业伙伴共同攻关,核心目标是提升国产 AI 芯片在规模化推理(包括 MoE 等复杂负载)场景下的互联效率与互通性,推动集群 Scale-up 能力演进。

以后如果要把“超节点”真正做成可复制、可规模化的推理基础设施,除了芯片本身,互联协议、交换与网络、系统软件与调度等关键环节都必须做到协同兼容。因此,我们后续也持续参与国产技术栈与关键标准生态的共建,让产品更顺畅地进入主流系统形态与客户工程体系。

问:对于实现生成式AI的普惠,云天在未来1-2年内的目标是什么?长期的策略是什么?

答: 我觉得现在的话,一个是修好内功,技术上你首先要有一技之长,围绕推理落地最关键的指标,把一项或几项核心能力做到足够突出、可复用、可交付——让客户在成本、能效、时延或工程化效率上能明确感知到价值。第二是用更开放的方式进入头部生态与头部客户体系,一方面积极参与主流技术栈与产业生态合作,降低适配门槛;另一方面也会通过多种合作形态(包括联合创新、联合解决方案、产业协同等)与头部客户建立更深度的验证与共创关系,尽快形成可复制的标杆与规模化路径。对我们来讲,策略是先进圈子,先进头部的圈子,在真实应用中逐步长出自己的生态。

02

演讲全文

以下是罗忆演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:

大家好,我是来自云天励飞的罗忆,主要负责推理芯片相关的生态建设工作。

云天励飞成立于2014年,是一家深圳本土的人工智能芯片企业。

2014年公司创立时,人工智能尚未像今天这样被普遍认为是第四次工业革命的核心技术,我们在较长时间里需要不断向客户和产业界证明人工智能的价值。但在这个过程中,云天励飞逐渐积累了端到端的全栈技术能力。

从历史视角看,中国在早期技术体系上曾长期领先全球,但在第一、第二、第三次工业革命中,一些关键生产力工具和核心技术的突破,拉开了不同国家和地区之间的差距。

进入AI时代,今天我们可以看到中美之间的竞争态势较为明显。美国在人才、资金、先进制程方面要卡中国的脖子,但同时,中国在过去多年的技术积累下,与美国在整个AI产业链领域的差距是在逐步缩短的。

虽然目前来看,还无法实现全面的国产替代,但今天产业界的同仁们,都在屡屡艰辛地实践,总是要有一些国家实验室和大企业要去攻关核心技术,守住产业发展的底线。

拐点已至:推理超越训练,国产算力占比过半


从整个技术发展的浪潮来看,2014年至2022年,AI产业整体迭代节奏相对稳定,通常以三个月到半年为周期。

2022年底被普遍认为是一个重要拐点——大模型时代正式到来,行业整体沿着Scaling Law发展,通过更大算力、更多数据和更大参数规模,不断提升模型能力,使得它能够更泛化地进行服务。

从2023年初大模型兴起开始,技术和产品的迭代速度明显加快。无论是做底层技术还是应用层的企业,普遍感受到学习和适应的压力,整个产业的迭代节奏,已经进入以“周”为尺度的迭代,甚至我们说,中美之间的迭代,可能只是5小时~8小时的迭代,你方唱罢我登场。

直到2025年1月初DeepSeek-R1的发布,这一趋势出现了新的变化。

DeepSeek的核心意义主要是两件事。

首先,缩短了开源模型与闭源模型之间的时间差;其次,它只用了二十分之一的硬件成本,复现类似闭源的效果。包括千问的一系列蒸馏模式,也说明在真实行业应用中,万亿参数、千亿参数模型在成本上难以长期承受。

从本质上看,模型参数规模越大,单位推理成本就越高。每一次推理所需的算力、带宽、KV Cache都会呈几何级数增长。

在产业应用中,我们实践出一套基本逻辑:

训练阶段可以持续探索模型能力上限

应用阶段必须通过稀疏化、蒸馏、量化、数据格式优化等方式,不断降低推理成本

只有这样,AI才能真正实现普惠,才能在千行百业中规模化落地。

如果类比工业革命,训练更像是“发电”,而推理更像是“用电”。

训练属于技术皇冠,需要少数头部企业解决大规模集群问题;而真正进入行业和社会运行体系的,是推理能力,需要云、边、端多层次的芯片形态支撑。

据我们观察,今年至少存在两个重要拐点。

第一,推理算力消耗将首次超过训练。


黄仁勋在今年的一次演讲中提到,他认为推动英伟达股价上升的三条曲线中的前两条,第一条是预训练,第二条是后训练,现在新的一条scaling实际就是Long Thinking。

从产业数据来看,推理Token消耗正在快速增长。2023年ChatBot时代以快问快答为主,而现在已经进入长上下文、联网搜索和深度思考阶段,Token消耗显著增加。

2024年的数据显示,国内企业Token消耗量同比增长超过100倍,谷歌的日Token调用量已达到约43万亿,这个数据已经滞后了,目前仍在持续增长。

我记得,据6月份国家数据局公布的数据,中国互联网整个日Token调用量是30万亿,到9月份,字节跳动一家就已经达到了30万亿/天。我们内部有段时间跟字节了解交流,据说最近可能已经突破了40万亿/天,这个增速实在是非常惊人,而且这个速度丝毫没有放缓的意思

第二,预计到年底,国内AI芯片出货/部署结构中,国产AI芯片占比有较大概率超过50%,整体份额超过非国产高端GPU

中国路径:以应用落地,反哺AI生态

AI的发展上,我们可以看到美国从“AI行动计划”,到最近的“创世纪计划”,持续从国家层面推动AI发展,包括现在的美股,基本都是靠AI概念的科技企业在支撑股价,科技类的已经达到了50%以上。而中国股市上,科技类可能占比还不到10%。

从2024年Q3到今年9月,北美四大云厂商2025资本开支增长了83.5%,像谷歌、亚马逊这些头部云厂商纷纷自研芯片以争取成本优势。

中国也有一系列政策的出台,最集中的其实是今年年中推出的“人工智能+”计划,这个政策极具中国特色,或者说非常符合中国的路径。

对中国来说,最重要的事情其实是通过应用的渗透以及千行百业的落地,去推动或反哺整个AI的繁荣。

我们一直坚信一个“数据飞轮”应用生产数据,数据训练算法,算法定义芯片,芯片的规模化应用推动整个产业的发展。

中国的特色是有一部分头部的企业,包括AI训练的厂商,用更大规模的训练集群去追赶与美国头部闭源模型的差距,甚至通过工程化的方式,一方面,是为了降低训练成本,更进一步,是为了降低未来的推理成本。

并且,中国有非常好的基础设施,在基础数字化、行业应用、应用人群以及应用热情上都具备明显优势,这个渗透率也会进一步推动以AI推理芯片为核心的资本投入的增长。

因此,在中美的动态竞争中,双方在政策导向、核心目标与技术路线上存在一定差异:美国更侧重于占据技术制高点,并将其作为经济增长的核心锚点;而中国的核心在于加速应用市场发展,特别是提升AI推理芯片的国产化替代速度。

同时,我觉得刚才几位分享嘉宾都讲到一个非常重要的事情,当前国内芯片产业最大的挑战在于软件与生态建设。在这方面,我们也有自己的布局与思考。

最近在香港的一次峰会上,我们的董事长跟AI先驱Hinton(杰弗里·辛顿)有过一次对话,Hinton一直担心,AI的发展速度过快,而相应的伦理与安全规范却未能同步跟上。另外他还提到,“只致力于让AI更聪明而不考虑应用,这是个大错误。”这个应用,包含生态、伦理、安全、监管等一系列问题。

对我们而言,不仅要在技术上不断精进,更要追求普惠与向善的目标,让AI真正以可承受的成本解决生产力问题,为各行各业创造价值。

GPNPU=生态兼容 + 能效特长 + 存储突破

在推理上,始终存在“性能-成本-精度”三角权衡挑战的关系。

云天励飞自进入该赛道起,便从小模型时代出发,基于自研NPU指令集,坚持走AI普惠与极致性价比的路线,通过算法与算力的一体化设计,在边缘侧及城市各类场景中深化应用。

随着模型规模扩大与应用范式多样化,技术路线大致分为三类:

以CUDA生态为代表的GPGPU主要解决大集群训练问题;

NPU则继续在极致能效与功耗上发挥优势;

针对云端推理,行业共识正趋向于GPNPU

我们则从专用架构走向更通用的设计。两条技术路线正在不断重叠与融合。

国内云端大算力推理芯片的技术路线选择,我们列了一个公式:

GPNPU=GPGPU+NPU+3DM

其核心任务是:

软件生态尽可能兼容CUDA。

保持NPU设计的高效性与模型亲和性。

确保芯片在产业化应用中实现高算力利用率。

此外,在大模型推理规模化落地(尤其解码阶段)中,性能瓶颈往往不再只体现在算力本身,而是更突出地体现在显存容量、互联带宽以及节点间互联带宽等系统约束上。在高端存储如HBM供应受限的背景下,我们必须寻求更多解决方案。因此,我们全力支持3D Memory技术路线,这是在国产化、大容量、高带宽方向实现突破的关键,只有更多厂商支持,该技术的产业化与商业化成熟度才能加速。


未来,云端AI基础设施必将走向异构化与高性价比方向。这不仅体现在单个模型的计算与访存分离,也体现在需用不同规模的模型服务不同场景需求

如同一个公司不会全部雇佣博士生,合理的性价比配置才能实现高效产出。其核心公式可简化为:(资本开支CAPEX + 营运成本OPEX)÷(加速卡吞吐量 × 设备利用率)。

很重要的是,现在的大模型推理为什么要做PD分离?因为P和D阶段完全不一样,P阶段是计算密集型,而D阶段绝大部分时候,算力在等数据搬运。


如何更高效地解决这个问题?我们通过数据格式优化、模型量化等一系列算法技术,在确保模型精度的前提下,显著提升了计算与数据搬运的实际效率,从而持续降低了单位Token的推理成本。


目前,国内云厂商的Token报价多以百万为单位,成本普遍在10元以上,无服务水平协议保障的模型调用成本甚至超过20元。我们认为,未来三到五年,百万Token成本必须降至1元人民币以内,才能支撑“人工智能+”计划所要求的渗透率目标。

最后,简单讲一下云天励飞,公司自2024年创立以来,始终秉持“算法+芯片”双轮驱动的技术路径,目前芯片已迭代至第四代。第五代芯片将全面转向GPNPU架构,并在原有自主设计的NPU指令集及多年行业技术积累基础上,向通用推理方向演进。

2020年,公司全面转向国内工艺体系,并成为国内最早实现D2D Chiplet技术的企业之一,该工艺是突破算力制约的关键路径,也是国产算力芯片发展的共同方向。

在存储技术方面,我们认为3DM是国产工艺未来实现突破的重要方向。尽管目前可采用海外HBM3e乃至后续产品,但其产业链与供应链仍存在较大不确定性,因此我们坚持全面推进国产化,致力于发展3DM等突破性工艺,并期待更多芯片企业加入,共同推动产业成熟。

在本代商用芯片中,我们通过一次流片即可封装出适用于端、边、云等多种场景的系列芯片,算力覆盖8T、16T、64T直至128T,其中最高规格的Edge200芯片可完整支持深度推理任务。

从公司愿景出发,云天励飞致力于全面拥抱人工智能浪潮。无论是在智能硬件、智能摄像头、具身智能、人形机器人还是云推理等领域,我们均围绕“端边云”体系布局了三条芯片产品线:“深穹”面向云推理,“深界”专注于端侧NPU芯片,“深擎”则是面向人工智能的SoC芯片。我们期待基于国产工艺,全面推动AI技术的落地与应用。

以上是我的分享,谢谢大家。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。