6月5日消息,在AI大模型从训练走向规模化推理落地的关键节点,应用交付与安全领域的领导者F5交出了一份本土创新的答卷。在日前举行的F5 Solution Day 2026媒体发布会上,F5中国正式推出本地化的基于词元(Token)的负载均衡解决方案(Token Based Load Balancing,以下简称TBLB),旨在解决AI推理场景下异构算力调度效率低、GPU资源利用率不均等核心痛点。
中国团队原创,从本土实践走向全球共识
“TBLB方案源于中国团队在AI推理场景中的本地创新与实践。”F5北亚区总裁黄彦文表示。据他介绍,随着大模型推理进入规模化落地阶段,传统基于连接数或请求数的负载均衡方式已难以精准反映AI推理任务对后端GPU算力资源的真实消耗。中国团队基于本地客户的实际需求,提出了以Token为调度核心的解决方案。
这一方案能够实时感知Token规模对后端算力资源的影响,动态调整请求分配策略,实现对不同节点算力状态的精细化调度。黄彦文透露,虽然创新最早来自中国市场,但F5已开始在全球范围内推广TBLB相关理念,“Token经济正在成为行业共识,AI基础设施正从‘以连接为中心’走向‘以Token为中心’。”
从“平均分流”到“算力感知”
F5中国区产品及解决方案总经理陈亮进一步向TechWeb阐释了TBLB与传统负载均衡的本质差异:“传统互联网时代,负载均衡解决的是‘流量如何分发’的问题;而在AI大模型时代,负载均衡演变为‘算力如何被实时调度’的问题。”
相同点在于核心目标未变:实现高可用、高性能和稳定交付。但不同在于“负载”的定义发生了根本变化。
传统负载均衡(SLB)主要基于连接数或请求数进行分发,因为Web请求的资源消耗相对固定,而在大模型推理场景下,一个请求背后的计算量可能相差几十倍甚至上百倍。“真正消耗GPU资源的,是Token数量、上下文长度以及推理复杂度。”
尤其在中国市场,企业普遍采用异构芯片混合部署,不同GPU、不同推理框架之间存在明显性能差异,传统基于请求数的负载均衡方式,已经很难精准反映底层算力的实时状态,也容易造成部分节点过载、部分节点空转。
因此,TBLB不再只关注“有多少请求”,而是关注“这些请求会消耗多少算力”。传统SLB更像“平均分流”,而TBLB则是“算力感知的智能调度”。它能够实时感知Token规模、GPU负载、KV Cache、队列长度等指标,并动态调整调度策略,将不同复杂度的任务分配到最合适的算力节点,避免GPU资源空转或局部过载。
这背后其实反映的是AI基础设施逻辑的变化。在互联网时代,核心资源是带宽和连接;而在AI时代,核心资源变成了GPU算力与Token吞吐能力。AI竞争正在从“模型能力”逐步延伸到“推理调度能力”。未来企业真正需要解决的,不只是模型是否足够强,而是如何在复杂异构算力环境下,以更低成本、更高效率、更稳定的方式完成每一次Token计算。这也是F5推出TBLB方案的核心价值所在。
降本增效的数据验证
F5还披露的多个客户案例印证了TBLB的实际价值。在某汽车行业客户场景中,算力资源由6块NVIDIA A40与8块L20构成,在未增加任何算力成本的前提下,Token生成速度提升30.3%,端到端响应速度提升48%。在某运营商采用华为Ascend 910B算力的环境中,并发用户数提升至少75%,Token生成速度提升达99%。在金融行业混合使用阿里平头哥PPU与NVIDIA H20的集群中,Token生成速度提升42%。
这些数据表明,TBLB方案能够在不增加额外算力投入的情况下,有效释放现有GPU潜能。黄彦文特别强调,当前GPU迭代周期已从过去的2-3年缩短至12-15个月,企业面临巨大的资产折旧压力。“如何提升既有GPU资源的利用效率,成为关键问题。TBLB支持跨品牌、跨代际GPU的统一调度与协同使用,实测可将GPU利用率提升60%。”
“创新中国,链接全球”的双引擎战略
在战略层面,F5中国今年将发展理念从“创新中国,服务中国”升级为“创新中国,链接全球”。黄彦文介绍,F5已正式成立AI应用工程部,中国团队在其中占据关键地位。“正是客户价值的持续验证,推动相关能力从中国走向全球。”
围绕这一战略,F5明确了“本地AI赋能”与“支持企业出海”两大业务航道:一方面围绕智能原生应用与AI推理场景强化本地能力建设;另一方面聚焦新能源汽车、高端制造等重点产业链的全球化布局,提供覆盖多地域、多云环境的应用交付与安全能力。
黄彦文总结道:“AI竞争正在从‘模型能力’逐步延伸到‘推理调度能力’。未来企业真正需要解决的,不只是模型是否足够强,而是如何在复杂异构算力环境下,以更低成本、更高效率、更稳定的方式完成每一次Token计算。这正是TBLB方案的核心价值所在。”





京公网安备 11011402013531号