出品|虎嗅科技组
作者|陈伊凡
编辑|苗正卿
头图|视觉中国
在 AI 芯片领域,英伟达凭借强大的训练芯片性能牢牢占据市场霸主地位,短期内难逢敌手。然而,随着 AI 推理市场的爆发式增长,这块利润惊人的 “蛋糕” 吸引了众多科技巨头与初创公司入局。
Rivos是其中一个。8月13日,这家位于美国加州的初创公司被曝正在寻求一笔4亿美元到5亿美元的融资。如果这笔融资敲定,那么Rivos自其2021年成立以来,融资总金额将超过8.7亿美元,也是迄今为止尚未大规模量产,却获得最大融资额的芯片初创公司之一。而这家芯片公司的背后投资者之一,是英特尔首席执行官陈立武。
这些初创公司和科技巨头,为何选择从推理侧狙击英伟达?它们又如何凭借差异化技术与成本优势撕开垄断缺口?
推理需求暴涨
在人工智能的世界里,训练与推理犹如驱动行业发展的双引擎,共同塑造着技术演进与市场竞争的格局。
训练,堪称 AI 系统的 “启蒙教育” 阶段。它如同培育一个懵懂孩童,通过海量数据投喂与高强度的算法训练,让 AI 模型从一无所知成长为能够应对复杂任务的 “智能体”。这一过程不仅成本高昂,往往需要强大的算力支撑与巨额资金投入。这个过程耗时漫长,一次完整的训练周期可能长达数月甚至数年。更关键的是,它具有明显的一次性特征,每一次训练都是全新的探索,难以复用。
而推理,则是 AI 技术的 “实战应用” 环节。当 AI 模型完成训练、积累了足够的知识后,推理便负责将这些知识转化为实际生产力,用于解决现实世界中的各类问题。
在生成式 AI 时代,技术架构迎来重大变革。以 Transformer 为代表的AI架构,让基础模型训练趋向稳定和固化。就像搭建好一座坚固的大厦,后续只需进行局部修缮与优化,无需频繁重建,极大降低了重复训练的成本。在这种情况下,推理成为持续创造价值的关键,如同永不停歇的生产线,不断调用模型能力,满足不同的场景和服务。
从商业视角看,训练阶段如同高风险的 “资本赌局”。巨额的研发投入与漫长的回报周期,使得只有少数科技巨头具备入场资格,且投入产出比充满不确定性。
而推理阶段则摇身一变,成为 AI 产业的 “现金印钞机”。广为人知的 AI 应用,无一不是通过向用户收取推理服务费实现盈利。
根据第三方机构Verified Market Research的数据,AI推理芯片市场正在经历爆发式增长,2023年市场规模为158亿美元,预计到2030年规模将达到906亿美元。
市场需求与商业收入在此形成良性循环,推理需求越旺盛,企业营收越高,进而吸引更多资源投入,推动技术迭代升级。这也不难理解,为何英伟达数据中心 40% 的收入都源自推理业务。
推理成本的大幅下降是市场增长的最主要驱动力之一,根据斯坦福大学2025年AI指数报告,在短短18个月内,AI推理成本从每百万token 20美元暴跌至0.07美元,下降了280倍。硬件层面,企业AI硬件成本每年下降30%,能源效率每年提高40%。
算法优化技术如量化、稀疏化和蒸馏等显著降低了模型的计算复杂度和内存需求。有资深投资人就曾向虎嗅表示,现在有效的互联网数据存量已经被使用得差不多了,它的更新是有限的,最终的增长肯定是推理,推理是要把训练好的模型应用到不同的场景。再加上MOE(专家混合模型架构)出现,对于新的信息,只需要局部训练。所以最终爆发的市场肯定是推理,推理是要把训练好的模型应用到不同的场景。
推理市场利润惊人、巨头争抢
摩根士丹利近期发布的一份深度报告,通过构建精细的财务模型,揭示AI推理工厂的惊人利润,将 AI 推理工厂的盈利密码层层解开。
以 100 兆瓦电力消耗为标尺,涵盖基建、硬件与运营的全成本核算显示,无论采用哪家巨头的芯片方案,AI 推理工厂的平均利润率竟普遍突破 50%。其中,英伟达 GB200 以 77.6% 的 “恐怖” 利润率笑傲群雄,尽管其搭载 72颗GB200芯片和NVL72系统售价高达300万美元,但超高的利润回报,仍让科技巨头们“眼红”。
“生成式AI时代,只有英伟达赚到钱了。”一位算法人士告诉虎嗅。
推理,是一份可以测算得出来的生意。当训练端已被英伟达铜墙铁壁牢牢稳住,推理,反而具备了突破英伟达的可能性。推理对生态和性能的要求没有训练苛刻,重点是性价比,也就是成本低,关键的是推理的暴利。
“天下苦英伟达已久。”主要来自对英伟达CUDA生态的依赖,但推理对于CUDA生态系统的依赖通常比训练小一些。原因是,部署灵活性,因为推理阶段可以使用更多样化的硬件和软件平台,包括CPU、边缘设备、WebGPU等,而不一定需要英伟达的CUDA环境,另外,训练过程需要大量的矩阵运算、梯度计算和反向传播,这些操作在CUDA上有高度优化的实现;而推理只需要前向传播,计算量相对较小。
因此,科技巨头选择在推理端逐渐渗透英伟达雄霸的市场。
比如说,根据The Information报道,为了减少对英伟达的依赖,AWS向其客户推销租用自研推理芯片——Trainium提供支持的服务器,并提供了25%的折扣,这个服务器提供的计算能力与英伟达的H100芯片相当。
虎嗅从硅谷科技公司人士、AWS的客户处获知,目前这款服务还没有在AWS的客户中广泛推广,主要是针对Anthropic,2023年亚马逊宣布向这家人工智能初创公司投资40亿美元并获得部分股权。Anthropic发布Claude系列模型,使其跻身全球头部领先模型公司行列。
今年6月,OpenAI也开始通过租用谷歌的TPU,降低推理计算的成本以及在推理侧对英伟达的依赖。
尽管,业内人士表示这并不是一蹴而就的过程,甚至现阶段这个举动从外界看来只是“隔靴搔痒”,生态依然是最大的问题,这涉及背后一整个软件栈的适配,但对于这些科技巨头而言,这确实不得不开始做的一件事——没人希望自己的钱都被英伟达挣了。
初创公司的“蚕食”
在 AI 推理市场的利润盛宴中,科技巨头的博弈只是冰山一角,一众初创公司更是摩拳擦掌,试图分一杯羹。
随着人工智能推理迈入高级学习和决策阶段,对算力的需求呈现出多元化、精细化的特点,通用 GPU 的灵活性优势不再是唯一选择,新兴的芯片初创公司另辟蹊径,聚焦 AI 专用芯片(ASIC)的研发。相较于通用 GPU,ASIC 以更低的成本实现高效运算,尽管应用场景相对单一,但其在特定推理任务中的卓越性能,成为初创公司撬动市场的支点。
在这场初创势力的突围战中,Rivos 无疑是备受瞩目的 “黑马”。从戴尔、台积电到英特尔、联发科,众多行业巨头纷纷为其注资。据The Information援引知情人士的话,Rivos正在开发软件,该软件可以将英伟达的CUDA软件代码,翻译成在Rivos的语言,在其芯片上高效运转。这意味着其芯片可无缝承接英伟达生态的软件资源,极大降低用户迁移成本。
除了Rivos,另一家英伟达的挑战者Groq也在筹集资金。
虎嗅根据公开信息以及The Information上公布的人工智能芯片初创公司的名单,25家英伟达的挑战者,一共从投资者那里筹集了超过70亿美元的资金,总估值达到290亿美元。
初创芯片公司Groq由前谷歌TPU团队成员成立,开发了独特的语言处理单元(Language Processing Unit)架构,这是其最大的技术差异化优势,专门针对AI推理任务进行了优化,号称能提供"世界最快推理"性能。Groq提供了远低于传统GPU的token处理成本的解决方案,这使其在推理市场具有明显的经济优势。如今,Groq已从贝莱德、思科、三星等处累计筹集超过10亿美元,并与沙特阿拉伯达成了价值15亿美元的芯片合作协议,在英伟达渗透率还不算高的中东市场开始拓展自己的芯片生意。
Groq的CEO在一次播客采访中也表示,英伟达可以制造他们原本要制造的每一个GPU,并将其用于高利润的训练业务,而他们则可以接手低利润但高体量的推理业务。
还有的地方是英伟达的视线尚未看到的微小角落——比如一些边缘侧,小型分散的推理需求正悄然爆发。例如从智能家居设备到智能穿戴产品,AI 智能硬件的广泛应用催生海量边缘推理场景。
此外,一些新型算法架构以及与之相结合所开发的芯片正在诞生。在过去几年里,英伟达是“算力越大越好”(Scaling Law)叙事下,最大的受益者,其依靠这套暴力美学,兜售其GPU。
只是Scaling Law到底是不是真正通往通用人工智能的道路?并没有定论,起码Meta首席人工智能科学家杨立昆(Yann LeCun),并不这么认为,“我们不能使用像 ChatGPT 或 GPT4这样的技术来训练机器人清理桌子或者填满洗碗机,即使这对一个孩子来说是一件微不足道的任务,我们还是做不到。”
对于在生成式AI时代处于绝对垄断地位的英伟达而言,GPU的“越多算力越好”的故事还能说多久,不好说,科技界永远在上演颠覆与被颠覆的故事。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4703507.html?f=wyxwapp