每百万 Token 成本砍六成，出海 AI 团队开始重算推理这笔账

IP属地中国·北京 硅星人 时间：2026-06-11 10:38:43

作者｜周一笑
邮箱｜ zhouyixiao@pingwest.com
单个 token 的价格在下降，但很多 AI 产品的账单并没有变轻。
一家亚太的 AI 情感陪伴出海公司就撞上过这个问题。它不是没人用，而是用户涨得越快，亏得越多。语音交互、多模态生成、持续在线的陪伴关系，把每一次调用都变成一笔细账，模型要跑，数据要传，结果要送回海外用户手里。后来它换了一套推理基础设施，把整体 AI 与 IT 成本砍掉约六成，项目才从亏损转向盈利。
我们带着这笔账，找到了李文涛。他是 Akamai 亚太区云计算架构师总监，这些年经手过大量出海团队的算力架构。在他看来，出海的 AI 团队这两年正在发生一个明显的转变。三年前，多数团队还在试水，多是拿 AI 给主营产品加点增值功能，在自己的模型上做些调优和打磨，服务也没真正上量。今年开始，重心从打磨模型，转向把正式服务发出去、把钱投到推理上。越来越多团队跑通了产品，接下来要做的是快速铺向全球、尽快盈利。
在他接触的出海团队里，AI 的用法也越来越广，从早期做营销、广告和游戏素材的文生图，扩展到文生视频，再到情感陪伴、智能客服、会议转写、实时翻译，以及电商个性化、库存预测、用户行为分析等场景。其中面向消费者的实时交互类应用，比如陪伴和对话，对成本和延迟尤其敏感。
接下来的问题就很具体了。一个手里已经有模型、可能正在用 H100 或者消费级卡的团队，到底该怎么把这笔账算清楚。我们和李文涛聊了三件事，选哪张卡，怎么算账，把推理放在哪里跑。
当年出海团队选 CDN，是在为网页、视频和下载体验算账；现在选推理跑在哪里，是在为每一次回答、每一帧视频、每一段语音算账。区别只是，这一次账单来得更快，也更难藏在后台。
以下为实录，经不改变原意的编辑。
硅星人：很多团队默认，跑推理就得上 H100，真是这样吗？
李文涛：不一定。英伟达的数据中心卡分好几档，从中高端的 H100，到中端的 RTX PRO 6000 Blackwell，再到更老更小的型号，每张卡擅长的工作不一样。英伟达对这些卡有定位，有些更适合训练，有些更适合推理。训练吃的是多卡互联和内存带宽，推理更看重单卡能不能把模型装下、把并发顶住，所以对很多推理场景来说，H100 是杀鸡用牛刀。
按英伟达自己的产品线资料，RTX PRO 6000 在推理这一档被标为最高性价比。它最关键的一个特点是原生支持 FP4 精度，这一点 H100 这一代（Hopper 架构）还做不到，只能到 FP8。FP4 比 FP8 省一半显存，对很多模型来说精度损失很小，省下来的显存可以多扛并发。再加上 96GB 的大显存，量化后单卡就能装下一个 70B-140B的模型，这是它跑大模型推理时真正占便宜的地方。
硅星人：能举个例子吗，同样是 AI，不同场景怎么配不同的卡？
李文涛：我们一个韩国客户就是例子，做《跑跑姜饼人》系列的 DevSisters。它在全球运营实时在线游戏，有两个 AI 场景，用了两张完全不同的卡。一个是游戏里 NPC 的实时对话，背后是一个 70B 的大模型，对实时性要求高，跑在 RTX PRO 6000 上，在 int8 精度下，96GB 显存可以装下这个模型，还留出 20 多 GB 给用户上下文和并发，基本能把这张卡跑满。另一个是离线生成游戏素材的文生图，模型小得多，用上一代的 RTX 4000 Ada 就够，更早之前他们用的是 A10、L20 这类更老的卡。一张高端卡跑实时大模型，一张小卡跑离线生成，就是按模型和场景把钱花在刀刃上。

硅星人：那为了省钱，直接上消费级游戏卡，或者显存小一些的便宜卡，行不行？
李文涛：国内确实有不少客户用比较低端、甚至消费级的卡跑推理，比如 5090 这种PC游戏卡，这里面有几个问题。一个是算力，创业初期拿它跑通产品没问题，但用户量一上来、模型一迭代，很快会撞到显存容量和带宽的瓶颈。再一个是可靠性，消费级卡在这块设计上有局限，比如没有 ECC 显存纠错机制，KV 缓存里一旦出错，就可能导致服务中断。还有扩展性，它不支持 NVLink，连卡间GPUDirect P2P直通也不支持，一旦要多卡协作，性能会断崖式下跌。所以从算力到可靠性再到扩展性，消费级卡都不是长久之计。另外有些团队用显存 48GB 甚至更小的卡，比 RTX PRO 6000 小一半左右，跑小模型没问题，真要跑一个 70B，单卡装不下就得拆成两张，卡和卡之间的通信复杂度和开销一上来，反而不划算。
硅星人：聊回 RTX PRO 6000，你们自己测过，说它的推理吞吐能做到 H100 的 1.63 倍。这个数怎么测的，又是什么样的团队其实不该选它？
李文涛：那个测试用的是业界开源的 Llama 70B 模型，按英伟达推荐的标准方法测的，从吞吐看，RTX PRO 6000 能做到 H100 的 1.63 倍。而且这还只是吞吐的比较，从性价比的角度看，优势会显著高于 1.63 倍。这里我补充一个点，我们在 RTX PRO 6000 上跑的时候用的是 FP4 精度，相比常用的 FP8、int8，它在精度几乎不损失的情况下又把显存需求降了一半；H100 这一代还不支持 FP4，只能用 FP8。即便这样，我们的吞吐还是做到了它的 1.63 倍。
至于什么样的团队不该选它，如果是要训练参数量在数百亿甚至更大的模型，需要 HBM3 那种高显存带宽、支持 NVLink 的卡，那 H100、甚至 B300 这类更高端卡的会更合适。RTX PRO 6000 的强项是推理，而且它能用的场景很广，从推理、后训练调优到数据分析、科学计算、实时渲染都行，是英伟达数据中心卡里用途最广的一款。选卡说到底，还是看它配不配得上自己的模型和业务，最强的那张往往不是最划算的。
（硅星人注：1.63 倍是 RTX PRO 6000 用 FP4、H100 用 FP8 比出来的，差距很大一部分来自精度本身，并不是同精度下的硬件差距。第三方测试机构 CloudRift 做过一组同模型、同量化、同框架的对比，结论是两张卡的推理吞吐基本持平，RTX PRO 6000 每百万 token 的成本低约三成。换句话说，拉到同一精度两者接近，能用上 FP4，才是 RTX PRO 6000 真正拉开差距的地方。）
硅星人：选完卡，接下来是算账。推理的成本，除了 GPU 每小时多少钱，还有哪些容易被忽略的？
李文涛：除了 GPU 的租金，推理时其实还有不少周边成本容易被忽略，比如 CPU、存储和网络流量。以 GCP 为例，同一台 GPU 机器里的 CPU 和存储是分开计费的，只看 GPU 单价各家差不多，把 CPU、本地存储、网络都算进去，差距就拉开了。Akamai 是把 GPU、CPU、存储、网络打包卖的，据我们自己测算，同样一台机器的性价比比 GCP 的同类机型高出一倍多。
最容易被低估的是出站流量，也就是 egress。训练是一次性投入，推理却是持续在跑，做语音、图片、视频这类多模态生成，一次请求传出去可能就是几十兆到几百兆。Akamai 的出站流量按约 0.005 美元一 GB 算，只有大厂常见价格的二十分之一左右，大厂动辄要 0.08 到 0.10 美元。这和我们做了多年 CDN 的底子有关，长期和运营商互联，把缓存服务器放进运营商网络，带宽和跨网结算的成本结构本来就和一般云厂商不同。
另外，AI 应用现在很多是多云架构，要和别的云上的应用互访。Akamai 用做 CDN 起家的那张全球骨干网，把自己所有的云区域打通，还和几乎所有主流云直连，客户跨云互访不额外掏一笔带宽费。随着 AI Agent 越来越多地调用外部工具和云上服务，多云之间的频繁互访会把网络成本和延迟重新放大，这种打通到时会更加提升性价比，应用部署也更加灵活。
硅星人：价格上，Akamai 在市场里大概是什么位置？
李文涛：大厂的 GPU 定价普遍偏高，条款也比较苛刻，往往要客户承诺比较大的使用量，才放出一点折扣。纯卖裸 GPU 的算力云确实便宜，但很多是规模不大的初创公司，算力的全球分布并不完整，服务质量和可靠性也有待验证。Akamai 想兼顾的，是性价比和企业级的全球网络与服务。
对出海团队来说，还有很重要的一层是本地化服务。很多问题不是出在国内总部，而是出在目标市场，当地有没有技术团队、能不能做24*7的架构咨询和故障响应，会直接影响生产服务能不能长期稳定地跑下去。Akamai 在中国做了十几年，一直服务中国企业出海，在国内和目标市场都有技术团队和资源，客户也能方便地用上我们全球的技术支持。除了性价比，这是客户很看重的地方。
硅星人：能不能讲一个真实的案例，从选卡、部署到成本，账是怎么一步步算下来的？
李文涛：我们有一个做情感陪伴的亚太客户。它原来用大厂的 A100，比较老的旗舰训练卡，做多模态的语音交互。A100 的租金本来就高，再叠加比我们高 20 多倍的出站流量，每生成一百万 token 的综合成本接近 4.5 到 5 美元。后来我们帮它优化架构，换到 Akamai 推理云、用 RTX PRO 6000、精度上采用FP4，出站流量也降到几乎可以忽略，综合成本降到 1.8 美元，整体的 AI 与 IT 开销砍掉六成，项目从亏损转向盈利。这也是不少出海团队走的路，起步图省事用大厂，跑到一定规模、单位成本压不下去时，再靠开源自建加合理选卡迁出来。迁移这件事，我们配了专门的架构师和商务方面的支持。
硅星人：除了选卡和选云，模型这边还有压成本的空间吗？
李文涛：空间不小。我们推荐 FP4 量化，它比 FP8 对显存的需求小一半，精度损耗几乎可以忽略，省下来的显存可以多扛并发、放更大的上下文。再加上把 KV 缓存从显存挪到内存，单卡能服务的量就上去了。我们有个做 AI 消费体验的海外客户，靠这些办法，把单张图片的生成成本压到了一美分上下。模型侧和基础设施侧的优化是叠加的，两边都做，单位成本才真正压得下来。
硅星人：延迟对出海的 AI 产品有多重要？位置对它的影响又有多大？
李文涛：延迟对出海产品比较重要的，毕竟中国出海的很多是 to C、实时交互类的产品。对一个大模型来说，首个 token 如果超过两秒，用户就会觉得 AI 卡住了，可能会流失，这跟以前网页加载太慢、用户放弃率高是一回事。对话类大概是两秒这个量级，实时语音、在线客服会更苛刻，几百毫秒用户就能感觉到延迟大了。前面说的 DevSisters，实时多人在线的游戏互动，也是要优化延迟的场景。这些都还是 to C 的场景，再往后像自动驾驶、机器人这种要在物理世界里实时反应的，对延迟和可靠性的要求只会更高。这里面其实是两件事，一是离用户近不近，二是网络路径好不好，后面这点常被忽略。
从区域数量看，三大云全球大概 30 到 50 个，我们的核心云区域在全球有32个；在网络边缘我们铺了 4400 个节点，覆盖了130个国家，这个量级上比三大云多了上百倍。节点离用户越近，中间的网络跳就越少。不过这些节点不是每个都能跑大模型，它为推理提供周边服务，如函数即服务，容器服务，边缘AI网关等。。
网络路径这方面我们做过一个对比，帮一个卡牌游戏客户，它之前用亚马逊的华盛顿区域服务南美的西语用户，换到我们的华盛顿区域之后，到南美的延迟缩短了大概 15%。两边都在华盛顿，物理距离没变，变的是流量进入和穿过互联网的路径。
硅星人：除了选区域，还有别的办法降延迟、降成本吗？
李文涛：有，有时候还能跳出纯 GPU 的范围。我们有个客户做全球的家庭安防摄像头，本来打算全部用 GPU 跑机器视觉，后来发现这个工作流可以拆成两步，先把视频里有异常的帧抽出来，再把这些帧交给 GPU 去识别。抽帧这一步我们用一个叫 VPU 的视频处理芯片来做，把它从 GPU 上卸载下来，跟 GPU 配合，成本降了三到五成。把一个推理流程拆开、每段放在最合适的硬件上，能省不少成本。
当然，不是所有推理都适合下沉到边缘。大模型训练、超大模型的多卡推理，仍然更适合集中在少数高算力的集群里。边缘真正擅长的，是那些对响应速度、跨区域体验和流量成本和数据合规更敏感的推理服务。

硅星人：往前看 6 到 12 个月，一个准备出海的 AI 团队，在算力这件事上最该提前准备什么？
李文涛：这取决于业务形态，但要说通用的建议，现在 AI 的模型和技术迭代都非常快，越来越多企业在转向 Agent 式的架构，所以设计云架构时别只盯着当前的需求，要往更长远看，搭一个能适应 Agent 时代的平台。具体是三点。一是多云友好，前面说的跨云打通，就是在为这个做准备。二是技术栈的选择，是用大厂的私有技术栈，像 Bedrock、Vertex AI 这种，还是用开源加基础设施服务，搭一个没有技术锁定、容易迁移的技术栈，这个选择很重要。三是 Agent 时代会带来新的扩展性和安全需求，人和模型的交互如果是一个量级，Agent 和 Agent 之间的交互可能是数百、数千甚至上万倍的量级，平台的扩展性、可管理性和安全，都要充分考虑。
硅星人：最后一个问题。对想出海的 AI 团队，最该补的能力是什么？
李文涛：最该补的是规模化的运营能力。具体来说，是海外的安全合规、面向全球用户的扩展性，以及产品体验在不同市场的适配。技术上中国团队并不缺，更需要专注的是把一个能跑通的产品，做成一套能在全球稳定、高扩展、安全和低成本运转的系统。
尤其是合规和安全这方面，分量越来越重。应用一旦做到欧洲，就要面对 GDPR，做到美国，又有 CCPA 这类严格的数据合规要求，再加上 AI 应用本身正在成为新的攻击面。Akamai 本身是从 CDN 起家、转向网络安全、再转向云的，防 DDoS、全球合规这些能力，是直接长在这套推理云基础设施里的。对出海团队来说，算力和安全合规，可以在一处一起解决。

点个“爱心”，再走吧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

通用汽车拟放弃磷酸铁锂电池路线，主攻富锂锰基电池技术

长安汽车回应挂牌转让长安福特新能源40%股权：正常结构调整

后备箱里的“炸弹”！新能源车私改电池成灰色产业链

加拿大立法禁止16岁以下儿童使用社交媒体，并监管AI聊天机器人

与荷兰工会谈判后，阿斯麦缩减裁员规模

中国新能源车周渗透率再创新高升至66.7%：每3人仅1人买燃油车

全站最新

通用汽车拟放弃磷酸铁锂电池路线，主攻富锂锰基电池技术

长安汽车回应挂牌转让长安福特新能源40%股权：正常结构调整

后备箱里的“炸弹”！新能源车私改电池成灰色产业链

加拿大立法禁止16岁以下儿童使用社交媒体，并监管AI聊天机器人

热门推荐

通用汽车拟放弃磷酸铁锂电池路线，主攻富锂锰基电池技术

长安汽车回应挂牌转让长安福特新能源40%股权：正常结构调整

后备箱里的“炸弹”！新能源车私改电池成灰色产业链

加拿大立法禁止16岁以下儿童使用社交媒体，并监管AI聊天机器人

与荷兰工会谈判后，阿斯麦缩减裁员规模

中国新能源车周渗透率再创新高升至66.7%：每3人仅1人买燃油车

小米汽车家用充电机械臂公布：自动插枪拔枪，全程不用手

Kakao员工要求加薪，经理人：三星加薪案例教会了其他韩企

从长亭科技卖给阿里云到执掌钉钉，陈宇森复盘十年创业得失

荣耀成上影节官方合作伙伴，机器人手机迎专业场景实测

苹果升级iOS 27版FaceTime：视频通话可同时调用前后摄像头

京东MALL首批实习机器人员工上岗

比亚迪宣布为辅助驾驶兜底：智能泊车使用率从21%提升至93%

发布“长安汽车并入东风集团”等不实信息两造谣抹黑自媒体公开道歉

OPPO首款阔折叠已开案：尺寸和苹果iPhone Ultra接近售价过万