F5中国本土创新“出圈”，自研Token负载均衡让异构GPU集群并发提升75%

IP属地中国·北京 编辑：顾雨柔 TechWeb 时间：2026-06-05 12:39:31

6月5日消息，在AI大模型从训练走向规模化推理落地的关键节点，应用交付与安全领域的领导者F5交出了一份本土创新的答卷。在日前举行的F5 Solution Day 2026媒体发布会上，F5中国正式推出本地化的基于词元（Token）的负载均衡解决方案（Token Based Load Balancing，以下简称TBLB），旨在解决AI推理场景下异构算力调度效率低、GPU资源利用率不均等核心痛点。
中国团队原创，从本土实践走向全球共识
“TBLB方案源于中国团队在AI推理场景中的本地创新与实践。”F5北亚区总裁黄彦文表示。据他介绍，随着大模型推理进入规模化落地阶段，传统基于连接数或请求数的负载均衡方式已难以精准反映AI推理任务对后端GPU算力资源的真实消耗。中国团队基于本地客户的实际需求，提出了以Token为调度核心的解决方案。
这一方案能够实时感知Token规模对后端算力资源的影响，动态调整请求分配策略，实现对不同节点算力状态的精细化调度。黄彦文透露，虽然创新最早来自中国市场，但F5已开始在全球范围内推广TBLB相关理念，“Token经济正在成为行业共识，AI基础设施正从‘以连接为中心’走向‘以Token为中心’。”
从“平均分流”到“算力感知”
F5中国区产品及解决方案总经理陈亮进一步向TechWeb阐释了TBLB与传统负载均衡的本质差异：“传统互联网时代，负载均衡解决的是‘流量如何分发’的问题；而在AI大模型时代，负载均衡演变为‘算力如何被实时调度’的问题。”
相同点在于核心目标未变：实现高可用、高性能和稳定交付。但不同在于“负载”的定义发生了根本变化。
传统负载均衡（SLB）主要基于连接数或请求数进行分发，因为Web请求的资源消耗相对固定，而在大模型推理场景下，一个请求背后的计算量可能相差几十倍甚至上百倍。“真正消耗GPU资源的，是Token数量、上下文长度以及推理复杂度。”
尤其在中国市场，企业普遍采用异构芯片混合部署，不同GPU、不同推理框架之间存在明显性能差异，传统基于请求数的负载均衡方式，已经很难精准反映底层算力的实时状态，也容易造成部分节点过载、部分节点空转。
因此，TBLB不再只关注“有多少请求”，而是关注“这些请求会消耗多少算力”。传统SLB更像“平均分流”，而TBLB则是“算力感知的智能调度”。它能够实时感知Token规模、GPU负载、KV Cache、队列长度等指标，并动态调整调度策略，将不同复杂度的任务分配到最合适的算力节点，避免GPU资源空转或局部过载。
这背后其实反映的是AI基础设施逻辑的变化。在互联网时代，核心资源是带宽和连接；而在AI时代，核心资源变成了GPU算力与Token吞吐能力。AI竞争正在从“模型能力”逐步延伸到“推理调度能力”。未来企业真正需要解决的，不只是模型是否足够强，而是如何在复杂异构算力环境下，以更低成本、更高效率、更稳定的方式完成每一次Token计算。这也是F5推出TBLB方案的核心价值所在。
降本增效的数据验证
F5还披露的多个客户案例印证了TBLB的实际价值。在某汽车行业客户场景中，算力资源由6块NVIDIA A40与8块L20构成，在未增加任何算力成本的前提下，Token生成速度提升30.3%，端到端响应速度提升48%。在某运营商采用华为Ascend 910B算力的环境中，并发用户数提升至少75%，Token生成速度提升达99%。在金融行业混合使用阿里平头哥PPU与NVIDIA H20的集群中，Token生成速度提升42%。
这些数据表明，TBLB方案能够在不增加额外算力投入的情况下，有效释放现有GPU潜能。黄彦文特别强调，当前GPU迭代周期已从过去的2-3年缩短至12-15个月，企业面临巨大的资产折旧压力。“如何提升既有GPU资源的利用效率，成为关键问题。TBLB支持跨品牌、跨代际GPU的统一调度与协同使用，实测可将GPU利用率提升60%。”
“创新中国，链接全球”的双引擎战略
在战略层面，F5中国今年将发展理念从“创新中国，服务中国”升级为“创新中国，链接全球”。黄彦文介绍，F5已正式成立AI应用工程部，中国团队在其中占据关键地位。“正是客户价值的持续验证，推动相关能力从中国走向全球。”
围绕这一战略，F5明确了“本地AI赋能”与“支持企业出海”两大业务航道：一方面围绕智能原生应用与AI推理场景强化本地能力建设；另一方面聚焦新能源汽车、高端制造等重点产业链的全球化布局，提供覆盖多地域、多云环境的应用交付与安全能力。
黄彦文总结道：“AI竞争正在从‘模型能力’逐步延伸到‘推理调度能力’。未来企业真正需要解决的，不只是模型是否足够强，而是如何在复杂异构算力环境下，以更低成本、更高效率、更稳定的方式完成每一次Token计算。这正是TBLB方案的核心价值所在。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

中科慧远亮相WAIC2026 跑出工业AI质检落地加速度

网易多项自研AI成果亮相2026世界人工智能大会

工信部：我国人工智能开源大模型全球累计下载量突破100亿次

中国手机现身西班牙世界杯夺冠现场，它还预测对了冠军归属

K3发布48小时，服务器满载、英伟达暴跌、Anthropic连夜改订阅

上半年净利润增长45%，这家手机企业很好地做到了将存储涨价转化给用户

全站最新

乐道L90交付再创新高：第60000台湖州交付蔚来区域销量破万

MINI JCW三门版高能玩家系列上市专属改装方案解锁纯粹驾驶乐趣

中科慧远亮相WAIC2026 跑出工业AI质检落地加速度

网易多项自研AI成果亮相2026世界人工智能大会

热门推荐

米家净化加湿器3 Pro众筹开启，大加湿量强净化，1699元享舒适体验

联想拯救者Y700四代平板迎Linux补丁支持基础功能已实现未来可期

马斯克称特斯拉FSD会模仿驾驶风格

新能源汽车维修作业安全国标8月施行

传音控股上半年营收净利双增

#广州小马智卡科技公司增资至2亿# 增幅25%

中科慧远亮相WAIC2026 跑出工业AI质检落地加速度

8800 万美元加注开源：Ollama跑进85%财富 500 强，喊出"全体上车"

网易多项自研AI成果亮相2026世界人工智能大会

工信部：我国人工智能开源大模型全球累计下载量突破100亿次

NVIDIA从未公开每颗显存都藏了温度传感器！高手成功破解读取

中国手机现身西班牙世界杯夺冠现场，它还预测对了冠军归属

K3发布48小时，服务器满载、英伟达暴跌、Anthropic连夜改订阅

上半年净利润增长45%，这家手机企业很好地做到了将存储涨价转化给用户

上半年新能源车型销量排名！吉利星愿夺冠，Model Y、理想i6紧随其后