当前位置: 首页 » 资讯 » 科技头条 » 正文

每百万 Token 成本砍六成,出海 AI 团队开始重算推理这笔账

IP属地 中国·北京 硅星人 时间:2026-06-11 10:38:43


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

单个 token 的价格在下降,但很多 AI 产品的账单并没有变轻。

一家亚太的 AI 情感陪伴出海公司就撞上过这个问题。它不是没人用,而是用户涨得越快,亏得越多。语音交互、多模态生成、持续在线的陪伴关系,把每一次调用都变成一笔细账,模型要跑,数据要传,结果要送回海外用户手里。后来它换了一套推理基础设施,把整体 AI 与 IT 成本砍掉约六成,项目才从亏损转向盈利。

我们带着这笔账,找到了李文涛。他是 Akamai 亚太区云计算架构师总监,这些年经手过大量出海团队的算力架构。在他看来,出海的 AI 团队这两年正在发生一个明显的转变。三年前,多数团队还在试水,多是拿 AI 给主营产品加点增值功能,在自己的模型上做些调优和打磨,服务也没真正上量。今年开始,重心从打磨模型,转向把正式服务发出去、把钱投到推理上。越来越多团队跑通了产品,接下来要做的是快速铺向全球、尽快盈利。

在他接触的出海团队里,AI 的用法也越来越广,从早期做营销、广告和游戏素材的文生图,扩展到文生视频,再到情感陪伴、智能客服、会议转写、实时翻译,以及电商个性化、库存预测、用户行为分析等场景。其中面向消费者的实时交互类应用,比如陪伴和对话,对成本和延迟尤其敏感。

接下来的问题就很具体了。一个手里已经有模型、可能正在用 H100 或者消费级卡的团队,到底该怎么把这笔账算清楚。我们和李文涛聊了三件事,选哪张卡,怎么算账,把推理放在哪里跑。

当年出海团队选 CDN,是在为网页、视频和下载体验算账;现在选推理跑在哪里,是在为每一次回答、每一帧视频、每一段语音算账。区别只是,这一次账单来得更快,也更难藏在后台。

以下为实录,经不改变原意的编辑。

硅星人:很多团队默认,跑推理就得上 H100,真是这样吗?

李文涛:不一定。英伟达的数据中心卡分好几档,从中高端的 H100,到中端的 RTX PRO 6000 Blackwell,再到更老更小的型号,每张卡擅长的工作不一样。英伟达对这些卡有定位,有些更适合训练,有些更适合推理。训练吃的是多卡互联和内存带宽,推理更看重单卡能不能把模型装下、把并发顶住,所以对很多推理场景来说,H100 是杀鸡用牛刀。

按英伟达自己的产品线资料,RTX PRO 6000 在推理这一档被标为最高性价比。它最关键的一个特点是原生支持 FP4 精度,这一点 H100 这一代(Hopper 架构)还做不到,只能到 FP8。FP4 比 FP8 省一半显存,对很多模型来说精度损失很小,省下来的显存可以多扛并发。再加上 96GB 的大显存,量化后单卡就能装下一个 70B-140B的 模型,这是它跑大模型推理时真正占便宜的地方。

硅星人:能举个例子吗,同样是 AI,不同场景怎么配不同的卡?

李文涛:我们一个韩国客户就是例子,做《跑跑姜饼人》系列的 DevSisters。它在全球运营实时在线游戏,有两个 AI 场景,用了两张完全不同的卡。一个是游戏里 NPC 的实时对话,背后是一个 70B 的大模型,对实时性要求高,跑在 RTX PRO 6000 上,在 int8 精度下,96GB 显存可以装下这个模型,还留出 20 多 GB 给用户上下文和并发,基本能把这张卡跑满。另一个是离线生成游戏素材的文生图,模型小得多,用上一代的 RTX 4000 Ada 就够,更早之前他们用的是 A10、L20 这类更老的卡。一张高端卡跑实时大模型,一张小卡跑离线生成,就是按模型和场景把钱花在刀刃上。


硅星人:那为了省钱,直接上消费级游戏卡,或者显存小一些的便宜卡,行不行?

李文涛:国内确实有不少客户用比较低端、甚至消费级的卡跑推理,比如 5090 这种PC游戏卡,这里面有几个问题。一个是算力,创业初期拿它跑通产品没问题,但用户量一上来、模型一迭代,很快会撞到显存容量和带宽的瓶颈。再一个是可靠性,消费级卡在这块设计上有局限,比如没有 ECC 显存纠错机制,KV 缓存里一旦出错,就可能导致服务中断。还有扩展性,它不支持 NVLink,连卡间GPUDirect P2P直通也不支持,一旦要多卡协作,性能会断崖式下跌。所以从算力到可靠性再到扩展性,消费级卡都不是长久之计。另外有些团队用显存 48GB 甚至更小的卡,比 RTX PRO 6000 小一半左右,跑小模型没问题,真要跑一个 70B,单卡装不下就得拆成两张,卡和卡之间的通信复杂度和开销一上来,反而不划算。

硅星人:聊回 RTX PRO 6000,你们自己测过,说它的推理吞吐能做到 H100 的 1.63 倍。这个数怎么测的,又是什么样的团队其实不该选它?

李文涛:那个测试用的是业界开源的 Llama 70B 模型,按英伟达推荐的标准方法测的,从吞吐看,RTX PRO 6000 能做到 H100 的 1.63 倍。而且这还只是吞吐的比较,从性价比的角度看,优势会显著高于 1.63 倍。这里我补充一个点,我们在 RTX PRO 6000 上跑的时候用的是 FP4 精度,相比常用的 FP8、int8,它在精度几乎不损失的情况下又把显存需求降了一半;H100 这一代还不支持 FP4,只能用 FP8。即便这样,我们的吞吐还是做到了它的 1.63 倍。

至于什么样的团队不该选它,如果是要训练参数量在数百亿甚至更大的模型,需要 HBM3 那种高显存带宽、支持 NVLink 的卡,那 H100、甚至 B300 这类更高端卡的会更合适。RTX PRO 6000 的强项是推理,而且它能用的场景很广,从推理、后训练调优到数据分析、科学计算、实时渲染都行,是英伟达数据中心卡里用途最广的一款。选卡说到底,还是看它配不配得上自己的模型和业务,最强的那张往往不是最划算的。

(硅星人注:1.63 倍是 RTX PRO 6000 用 FP4、H100 用 FP8 比出来的,差距很大一部分来自精度本身,并不是同精度下的硬件差距。第三方测试机构 CloudRift 做过一组同模型、同量化、同框架的对比,结论是两张卡的推理吞吐基本持平,RTX PRO 6000 每百万 token 的成本低约三成。换句话说,拉到同一精度两者接近,能用上 FP4,才是 RTX PRO 6000 真正拉开差距的地方。)

硅星人:选完卡,接下来是算账。推理的成本,除了 GPU 每小时多少钱,还有哪些容易被忽略的?

李文涛:除了 GPU 的租金,推理时其实还有不少周边成本容易被忽略,比如 CPU、存储和网络流量。以 GCP 为例,同一台 GPU 机器里的 CPU 和存储是分开计费的,只看 GPU 单价各家差不多,把 CPU、本地存储、网络都算进去,差距就拉开了。Akamai 是把 GPU、CPU、存储、网络打包卖的,据我们自己测算,同样一台机器的性价比比 GCP 的同类机型高出一倍多。

最容易被低估的是出站流量,也就是 egress。训练是一次性投入,推理却是持续在跑,做语音、图片、视频这类多模态生成,一次请求传出去可能就是几十兆到几百兆。Akamai 的出站流量按约 0.005 美元一 GB 算,只有大厂常见价格的二十分之一左右,大厂动辄要 0.08 到 0.10 美元。这和我们做了多年 CDN 的底子有关,长期和运营商互联,把缓存服务器放进运营商网络,带宽和跨网结算的成本结构本来就和一般云厂商不同。

另外,AI 应用现在很多是多云架构,要和别的云上的应用互访。Akamai 用做 CDN 起家的那张全球骨干网,把自己所有的云区域打通,还和几乎所有主流云直连,客户跨云互访不额外掏一笔带宽费。随着 AI Agent 越来越多地调用外部工具和云上服务,多云之间的频繁互访会把网络成本和延迟重新放大,这种打通到时会更加提升性价比,应用部署也更加灵活。

硅星人:价格上,Akamai 在市场里大概是什么位置?

李文涛:大厂的 GPU 定价普遍偏高,条款也比较苛刻,往往要客户承诺比较大的使用量,才放出一点折扣。纯卖裸 GPU 的算力云确实便宜,但很多是规模不大的初创公司,算力的全球分布并不完整,服务质量和可靠性也有待验证。Akamai 想兼顾的,是性价比和企业级的全球网络与服务。

对出海团队来说,还有很重要的一层是本地化服务。很多问题不是出在国内总部,而是出在目标市场,当地有没有技术团队、能不能做24*7的架构咨询和故障响应,会直接影响生产服务能不能长期稳定地跑下去。Akamai 在中国做了十几年,一直服务中国企业出海,在国内和目标市场都有技术团队和资源,客户也能方便地用上我们全球的技术支持。除了性价比,这是客户很看重的地方。

硅星人:能不能讲一个真实的案例,从选卡、部署到成本,账是怎么一步步算下来的?

李文涛:我们有一个做情感陪伴的亚太客户。它原来用大厂的 A100,比较老的旗舰训练卡,做多模态的语音交互。A100 的租金本来就高,再叠加比我们高 20 多倍的出站流量,每生成一百万 token 的综合成本接近 4.5 到 5 美元。后来我们帮它优化架构,换到 Akamai 推理云、用 RTX PRO 6000、精度上 采用FP4,出站流量也降到几乎可以忽略,综合成本降到 1.8 美元,整体的 AI 与 IT 开销砍掉六成,项目从亏损转向盈利。这也是不少出海团队走的路,起步图省事用大厂,跑到一定规模、单位成本压不下去时,再靠开源自建加合理选卡迁出来。迁移这件事,我们配了专门的架构师和商务方面的支持。

硅星人:除了选卡和选云,模型这边还有压成本的空间吗?

李文涛:空间不小。我们推荐 FP4 量化,它比 FP8 对显存的需求小一半,精度损耗几乎可以忽略,省下来的显存可以多扛并发、放更大的上下文。再加上把 KV 缓存从显存挪到内存,单卡能服务的量就上去了。我们有个做 AI 消费体验的海外客户,靠这些办法,把单张图片的生成成本压到了一美分上下。模型侧和基础设施侧的优化是叠加的,两边都做,单位成本才真正压得下来。

硅星人:延迟对出海的 AI 产品有多重要?位置对它的影响又有多大?

李文涛:延迟对出海产品比较重要的,毕竟中国出海的很多是 to C、实时交互类的产品。对一个大模型来说,首个 token 如果超过两秒,用户就会觉得 AI 卡住了,可能会流失,这跟以前网页加载太慢、用户放弃率高是一回事。对话类大概是两秒这个量级,实时语音、在线客服会更苛刻,几百毫秒用户就能感觉到延迟大了。前面说的 DevSisters,实时多人在线的游戏互动,也是要优化延迟的场景。这些都还是 to C 的场景,再往后像自动驾驶、机器人这种要在物理世界里实时反应的,对延迟和可靠性的要求只会更高。这里面其实是两件事,一是离用户近不近,二是网络路径好不好,后面这点常被忽略。

从区域数量看,三大云全球大概 30 到 50 个,我们的核心云区域在全球有32个;在网络边缘我们铺了 4400 个节点,覆盖了130个国家,这个量级上比三大云多了上百倍。节点离用户越近,中间的网络跳就越少。不过这些节点不是每个都能跑大模型,它为推理提供周边服务,如函数即服务,容器服务,边缘AI网关等。。

网络路径这方面我们做过一个对比,帮一个卡牌游戏客户,它之前用亚马逊的华盛顿区域服务南美的西语用户,换到我们的华盛顿区域之后,到南美的延迟缩短了大概 15%。两边都在华盛顿,物理距离没变,变的是流量进入和穿过互联网的路径。

硅星人:除了选区域,还有别的办法降延迟、降成本吗?

李文涛:有,有时候还能跳出纯 GPU 的范围。我们有个客户做全球的家庭安防摄像头,本来打算全部用 GPU 跑机器视觉,后来发现这个工作流可以拆成两步,先把视频里有异常的帧抽出来,再把这些帧交给 GPU 去识别。抽帧这一步我们用一个叫 VPU 的视频处理芯片来做,把它从 GPU 上卸载下来,跟 GPU 配合,成本降了三到五成。把一个推理流程拆开、每段放在最合适的硬件上,能省不少成本。

当然,不是所有推理都适合下沉到边缘。大模型训练、超大模型的多卡推理,仍然更适合集中在少数高算力的集群里。边缘真正擅长的,是那些对响应速度、跨区域体验和流量成本和数据合规更敏感的推理服务。


硅星人:往前看 6 到 12 个月,一个准备出海的 AI 团队,在算力这件事上最该提前准备什么?

李文涛:这取决于业务形态,但要说通用的建议,现在 AI 的模型和技术迭代都非常快,越来越多企业在转向 Agent 式的架构,所以设计云架构时别只盯着当前的需求,要往更长远看,搭一个能适应 Agent 时代的平台。具体是三点。一是多云友好,前面说的跨云打通,就是在为这个做准备。二是技术栈的选择,是用大厂的私有技术栈,像 Bedrock、Vertex AI 这种,还是用开源加基础设施服务,搭一个没有技术锁定、容易迁移的技术栈,这个选择很重要。三是 Agent 时代会带来新的扩展性和安全需求,人和模型的交互如果是一个量级,Agent 和 Agent 之间的交互可能是数百、数千甚至上万倍的量级,平台的扩展性、可管理性和安全,都要充分考虑。

硅星人:最后一个问题。对想出海的 AI 团队,最该补的能力是什么?

李文涛:最该补的是规模化的运营能力。具体来说,是海外的安全合规、面向全球用户的扩展性,以及产品体验在不同市场的适配。技术上中国团队并不缺,更需要专注的是把一个能跑通的产品,做成一套能在全球稳定、高扩展、安全和低成本运转的系统。

尤其是合规和安全这方面,分量越来越重。应用一旦做到欧洲,就要面对 GDPR,做到美国,又有 CCPA 这类严格的数据合规要求,再加上 AI 应用本身正在成为新的攻击面。Akamai 本身是从 CDN 起家、转向网络安全、再转向云的,防 DDoS、全球合规这些能力,是直接长在这套推理云基础设施里的。对出海团队来说,算力和安全合规,可以在一处一起解决。


点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。