
![]()
“在算力成为基础设施的时代,究竟什么样的技术路径、生态战略和商业逻辑,能够穿越周期,占据未来价值链的顶端?”
作者丨杨依婷 刘伊伦
编辑丨包永刚
2025年12月13日,GAIR 2025「AI 算力新十年」专场在深圳·博林天瑞喜来登酒店正式启幕。
作为国内前沿技术与产业变革的重要风向标,GAIR大会历经七届积淀,见证并推动了中国 AI 产业从算法突破、硬件迭代,到商业落地的完整过程。本届论坛直面智能体系的底层核心——算力,从架构、生态、工具链到产业化落地,探寻未来十年的关键变量。
上午场以「谁是下一个寒武纪」为主题,六位来自产、学、研、投等多个维度的嘉宾依次登台,以不同视角揭示国产算力的现状与未来——这不仅是在探寻一家明星企业,更是在追问:
在算力成为基础设施的时代,究竟什么样的技术路径、生态战略和商业逻辑,能够穿越周期,占据未来价值链的顶端?
从最底层的芯片架构哲学,到最顶层的应用落地挑战,一幅更立体、更清晰、也更具方向感的图景,正在这场大会中缓缓展开。
深圳理工大学算力微电子学院院长唐志敏:通过软件定义算力,才能打破芯片技术壁垒
![]()
首位登场演讲的嘉宾是深圳理工大学算力微电子学院院长,龙芯 CPU、海光 CPU 创始人唐志敏。深耕微电子与算力领域三十余载,唐志敏院长亲历了中国自主芯片从无到有、从弱到强的攻坚历程,更在算力芯片(XPU)的体系结构、软件生态与产业发展领域有着深厚积淀,对于算力时代下芯片技术突破瓶颈、产业生态构建难点,有着独到且深刻的洞察。
唐志敏院长在大会上带来了关于《XPU的未来——软件定义成败》的主题演讲,从算力时代XPU发展的核心痛点切入,系统剖析软件生态对算力芯片产业的决定性作用。
“我们不仅创造了‘算力’,还为它赋予了国际表达——computility。”唐志敏开篇点明,算力正在向“水、电般的公共事业”进化。他进一步延伸,随着生成式AI的爆发,算力衍生出“训力”(快速训练大模型的能力)与“推力”(基于大模型输出结果的能力),甚至幽默展望:“未来会不会出现‘演力’,直接把金庸小说变成电视剧?”这些鲜活的概念,既是技术趋势的提炼,更传递出中国科技界对定义未来的主动思考。
“当前算力芯片的发展,像在爬一座越来越陡峭的山,技术迭代速度却越来越慢。”唐志敏以形象的比喻指出核心矛盾:一方面,摩尔定律放缓导致CPU等传统处理器发展受限;另一方面,生成式AI对算力的需求呈指数级增长。
为应对这一矛盾,学术界与工业界正推动“异构计算”(CPU+XPU),但新问题随之而来——“我们有了很多种乐器,却没有统一的乐谱”,编程复杂度激增、软件兼容性差成为新瓶颈。
“生态是绕不开的命题。”唐志敏以数据佐证:X86架构历经四五十年沉淀,其软件生态壁垒极高,ARM虽在手机领域称雄,却在服务器市场屡屡碰壁;RISC-V虽被视为“破局者”,但商业化之路同样艰难。
他特别强调指令系统的重要性:“英特尔持续向X86架构中添加新指令,正是生态竞争的关键动作。”谈及自主创新案例,他举例:“我们在研发海光CPU时,阿里云为何优先选择英特尔?因为软件优化的积累,才是用户选择的核心。”
唐志敏强调,当前算力性能突破需跨学科交叉与软件深度优化双轮驱动。他以Linpack测试为例,指出应用软件性能提升难度远超硬件迭代,通过软硬件协同优化,在现有制程限制下实现算力效能最大化。“中国半导体受全球趋势及制程限制,必须通过软件定义算力,打破传统软硬件隔阂。”
针对GPGPU发展现状,唐志敏警示部分产品已偏离GPU本质功能。他以生成式AI场景为例,说明图形渲染、着色等基础能力的重要性:"将小说转化为电视剧,既需要GPT的内容生成,也依赖GPU的视觉呈现。" 同时,他分析系统厂商自研芯片浪潮时指出,苹果的成功在于通过自研CPU实现产品增值与全栈软件掌控,而"未能提升产品溢价的自研芯片终将面临市场挑战"。
在架构创新层面,唐志敏明确反对指令系统碎片化:"现有指令系统足以支撑架构创新,RISC-V应成为产业统一标准。"他认为,计算芯片产业正呈现螺旋式发展,未来将回归融合异构特性的CPU中心化架构,而RISC-V的包容性可有效整合CPU、GPU及AI处理器特性,通过开源体系突破生态壁垒。
“套用三国定律来理解芯片生态,就是分久必合、合久必分,以前是以CPU为中心,现在就是去中心化的异构计算,CPU和XPU联合起来,但也会面临很多问题,我们希望在将来回归到以CPU为中心的大一统,总体就说一个否定之否定的过程。”唐志敏院长最后总结称。
刘方明教授:国产算力驱动大模型需破解体系化挑战,生态应从“野蛮生长”走向集约与开放
![]()
面向AI大模型和智能体兴起的机遇和挑战,第二位演讲嘉宾刘方明教授作了题为《国产算力驱动的大模型体系化挑战:全生命周期工具链与示范应用》的主题报告。
首先,刘方明教授分析了当前大模型的发展趋势。他指出,当前算力中心和芯片等AI Infrastructure需要智算应用驱动,全球范围内大模型数量和智能体应用已呈爆发式增长。
但他同时观察到一种新动向:“随着DeepSeek的推出,全球模型有从‘百模大战’向‘十模争锋’的收敛趋势。”
针对国内大模型发展生态,他指出当前仍面临“野蛮生长”带来的多重挑战:国产模型能力存在差距、开源率低、工具链缺乏体系化、评测标准不统一以及价值对齐合规安全仍需技术保障。
他进一步介绍了鹏城实验室作为国家实验室的独特定位——“保底线”,致力于在极端情况下保障国产算力主权和模型的自主可控。
“现在模型正逐渐走向集约化路线,不是只比谁规模大、暴力出奇迹了,而是看谁能用最少的数据、最少的算力、最少的能耗做出好用的模型。”刘方明尤其强调了范式的转变。
鹏城实验室在发布了2000亿参数的大语言模型后,又推出了33B和2B参数的中小尺寸模型,并将2B参数模型全过程开源,包括所有数据和数据配比、权重和训练环节,方便用户复现和使用。
最后,他重申了“用以致善”的理念:“好的模型、算力、芯片、硬件是靠用出来的。”目前,鹏城实验室正与气象、金融、文博、生态环境、智能制造等行业合作,推动大模型在典型场景中的示范应用,以实践驱动国产算力与大模型全生命周期体系的成熟。
燧原科技联合创始人兼首席生态官李星宇:国产算力行业将迎来淘汰赛,软件生态是关键胜负手
![]()
燧原科技联合创始人兼首席生态官、芯片行业资深专家李星宇,在大会上带来题为《时不我待,破局国产AI算力技术生态》的主题演讲。
作为国产AI算力领域的深耕者与实践者,李星宇亲历了国产算力芯片从技术攻坚到商业化落地的全历程,在算力硬件创新、软件生态构建与产业场景融合等领域有着丰富经验。
李星宇抛出一组关键数据:“今年全球算力投资资本支出预计将超过4600亿美金,超过美国登月计划的总投入。”他解释,当前全球顶级互联网公司在AI领域的大部分资本支出(CapEx)用于算力采购,中国市场同样如此,BAT等互联网大厂占据了68%以上的份额。
从商业化应用看,AI正加速渗透至AI编程、数字IP内容领域。李星宇提到,“AIGC在数字人、游戏、影视行业今年国内产值预计超1000亿,全球数字内容生成市场规模已近500亿美金,加上AI编程领域、虚拟交互这三大场景构成了当前AI商业化的主战场。”
而在这三大主战场背后,GPU作为核心算力载体,其竞争的胜负手早已超出硬件性能本身,延伸至生态层面。“软件生态是GPU硬件行业的胜负手。”
而中国的表现令全球瞩目。李星宇强调,“中国已成为大模型领域的开源生态领导者。HuggingFace Top10模型中,9个来自中国公司。更关键的是,在实际商业化场景中,中国开源模型生成的Token量已超过全球其他开源模型总和。
谈及技术演进,李星宇指出,软硬结合,AI算法需求驱动计算架构持续创新,数据格式的创新和优化带来了算力性能的提升,从FP32到FP16再到FP8和FP4,每一次迭代都需要硬件架构的支持和软件生态的集成优化。
硬件层面,技术栈的范围从单芯片加速向超大规模系统工程演进,在单芯片架构层面,需要CPU和XPU整个异构系统的软硬件协同优化,综合标量、向量和张量计算,更高效率支持算法的工程创新,如PD分离、MLA、MTP等。软件层面,更需要深度拥抱开源软件生态,如DeepSeek,Qwen,ChatGLM3等,借助生态的力量充分释放硬件的算力。集群层面,要解决超高速互联技术、系统分级存储、以及液冷等挑战。
“国产算力行业将迎来淘汰赛。”李星宇直言,由于系统级产品研发需海量资金投入,今年国内算力企业正全力冲击资本市场,预计未来一年A股和港股至少6家公司冲刺上市。资金和技术储备不足、生态布局薄弱的企业或将加速出局。得益于丰富的商业化应用场景,燧原的产品迭代获得了坚实支撑,国民级爆款应用已经用到了燧原的算力。
“破局国产算力技术生态,是一场技术、商业与人才的长跑”,李星宇最后总结道,拥抱开源,构建开放、统一的技术体系,避免“烟囱式”发展、凝聚生态合力;绑定场景,与“AI+场景”深度绑定,以商业化场景打磨技术栈;培育人才,从社区和高校源头入手,将国产AI算力技术栈融入人才培养体系。
摩尔线程副总裁王华:万卡集群+智能工具链,破解大模型训练效率与稳定性难题
![]()
随后,摩尔线程副总裁王华作了题为《基于国产GPU集群的大规模训练实践》的主题演讲,系统介绍了大模型训练当前面临的挑战、摩尔线程的软件栈指出以及提升训练效率的关键技术与工具。
王华开宗明义地介绍了万卡甚至更大规模的集群的必要性。他以Kimi、GPT-5、Grok等模型为例,揭示其计算量已超过了的10²⁴ FLOPs量级。在此背景下,集群规模成为压缩训练时间的核心变量。
一组对比数据直观而震撼:对于某个特定大模型,千卡集群需耗时173天,而在万卡集群上,即便模型浮点运算利用率(MFU)会从40%降至30%,训练时间也能被大幅压缩至23天。
“对于大模型来说,训练非常关键。现在模型的竞争非常激烈,一些算法实验希望快速验证效果,而完成训练的时间越短越好,最好不要超过1个月。”王华强调道。
那么,如何系统性地驾驭这个庞大而复杂的生命周期?王华随后分享了摩尔线程的“全栈应对之道”。
在软件生态上,摩尔线程提供了从Model Studio一站式平台、深度融合的MT-MegatronLM与DeepSpeed框架、适配国产GPU的Torch-MUSA与MT-TransformerEngine,到底层MUSA计算库及KuaE集群平台的全栈支持。
此外,摩尔线程还构建了一套贯穿训练前、中、后期的智能工具体系,旨在将不可控的风险转化为可管理、可自动恢复的常规操作。
在训练启动前,SimuMax 支持训练资源规划与时间估算,并可验证优化效果;起飞检查对计算、网络、存储及软件环境进行全面诊断,保障集群健康。
训练过程中,慢节点检测系统实时定位硬件或通信异常;针对隐蔽的静默数据错误,通过硬件监控与重运行(Re-Run)等措施防范;Hang问题可通过定位源头节点并自动重启恢复;面对 Inf/NaN 异常,系统可自动检测并通过重运行或更换节点处置。
同时,分布式 Profiling 系统提供从轻量级实时洞察到全链路深度分析的能力,支撑持续性能调优。
展望未来,摩尔线程以“为美好世界加速”为愿景,正致力于通过全功能GPU与全栈软件能力的深度融合,为这场AI算力的极限挑战提供坚实、高效且智能的基础设施。
云天励飞技术副总裁罗忆:2025年是AI芯片消耗关键拐点,推理芯片消耗或将超过训练芯片
![]()
云天励飞技术副总裁罗忆,在大会上带来题为《芯智AI筑基,普惠点亮未来》的主题演讲。
作为深耕AI芯片与智能生态领域的资深从业者,罗忆见证了人工智能从技术突破到规模化应用的演进历程,在算力芯片架构创新、AI推理技术路线探索与产业生态落地等方面有着深厚积累。
罗忆指出,AI产业正从“模型训练”向“推理应用”加速切换。2025年,AI芯片消耗将迎来重要转折,推理芯片消耗量或将超过训练芯片。这一判断源于企业端推理需求的爆发:谷歌日调用量已达43万亿Token,字节跳动近期或突破40万亿,云厂商如谷歌、亚马逊等已加速自研推理芯片以应对需求。
针对大模型应用的“经济学困境”,罗忆强调成本优化是关键。当前万亿参数模型面临算力、带宽等成本的“几何级增长”,需通过稀疏化、蒸馏化、量化优化等技术降低门槛,推动AI从“高成本探索”走向“规模化普惠”。
谈及中国AI发展路径,罗忆总结为“数据飞轮”模式: 应用生产数据-数据训练算法-算法定义芯片-芯片赋能规模化应用 。区别于美国通过政策强推技术突破的路径,中国以“人工智能+”计划为核心,依托千行百业的场景落地反哺技术迭代,逐步缩短与美国在AI产业链上的差距。
在国产AI推理芯片方面,罗忆提出三个发展方向:软件生态兼容,以平衡算法迭代与算力利用率;突破存储技术瓶颈,支持3D memory技术;异构计算与优化性价比,目标在未来三到五年内让百万Token成本降至1元以内。
云天励飞作为国产AI芯片代表,已完成芯片架构升级,实现全流程国产工艺转型,构建起覆盖端边云的产品矩阵。
IO资本创始合伙人赵占祥:大模型算力突围需摒弃“单点追赶”,以系统级架构与工艺创新开辟多元化中国路径
![]()
论坛的最后一位嘉宾,是来自IO资本的创始合伙人赵占祥,他专注于硬科技与半导体领域的早期及成长期投资,会上发表了题为《大模型时代,国产AI芯片破局的几种新技术路线》 的演讲。
赵占祥在演讲伊始,就将话题聚焦于当前的核心制约——在美国对华出口管制不断升级,瞄准先进计算与先进制造产业链的背景下,未来我们怎样在工艺受限的情况下超过英伟达?
“只能靠新的技术路径。”赵占祥给出了他的答案。
面对从先进制程、HBM到先进封装的全面限制,国内已涌现出一批从架构革新、工艺融合、系统优化入手的创新企业,其路径呈现出多元化特征。赵占祥从云端AI芯片、边缘AI芯片、端侧AI芯片、loT末端AI芯片以及先进封装等不同方向,分享了不同企业的创新路线。
在数据中心的AI芯片,部分企业摒弃了对单卡算力的盲目追求,转而构建更高效的系统。例如,TPU路线通过打造大规模超节点、省去交换机和HBM,在集群层面追求更高性价比;以太网互联网方案可以做到百万卡的分布式集群,允许丢包,可扩展性更高。
在边缘AI芯片方向,随着桌面级AI应用(如AI NAS、AI摄像头)的井喷,专为这些场景设计的LPU架构等应运而生,它们通过3D DRAM堆叠等技术,在有限功耗和成本下实现惊人的内存带宽。
在端侧AI芯片方向,主要针对手机以及各种智算终端,存算一体与近存计算成为关键。无论是将计算单元嵌入存储芯片的3D-CIM架构,还是在LPDDR内存中集成处理能力的PIM方案,目标都是在手机有限的面积和功耗预算内,流畅运行数10亿参数的大模型。
“3D DRAM,要靠先进封装”。赵占祥强调,大算力芯片正在向三维架构变革,这使得先进封装及其检测设备不再是配角,而是决定性能和良率的核心。
更进一步,赵占祥直言:“光电合封,是下一代AI算力的基石。”能以数量级优势提升集成度、降低功耗,是突破现有电气互联瓶颈的关键方向。
“中国真正强的是,我们可以把应用做好,有工程师红利,我们在各个领域都有不同的定制化方案和创新的解决路线。”赵占祥的洞察揭示了此次芯片创新浪潮的驱动力——不是单一技术的颠覆,而是在广泛的应用需求牵引下,通过多条技术路径的并进,系统性构建自主的AI算力生态。
结语
“谁是下一个寒武纪?”——这场思辨在讨论中暂告段落,答案并未指向某个具体名字,却清晰揭示出:追问本身,远比答案更重要。
本次论坛的意义,正在于将这一具体追问,拓展为对产业未来的系统性审思——从技术路径的抉择、生态模式的构建,到商业逻辑的沉淀。
寻找的过程,即是建构的过程。
我们或许尚未见到最终的引领者,却已在思辨中凝聚了共识,辨明了前行的方向与必须夯实的基石。
这份对前沿的探索与对创新的笃行,正是驱动产业持续进化的根本动力。
我们期待,以此论坛为新的起点,产学研投各界能凝聚更广泛的共识,形成更强大的合力。
智算新时代的帷幕已然拉开,关于技术路径、产业格局与未来定义的探讨仍将延续,让我们怀抱这份期待,在未来征程中,再次相聚,共见分晓。





京公网安备 11011402013531号