F5切入Token级调度

发布于 5 天前IP 属地：河北省

事件概览

InfoQ 报道称，随着大模型应用流量快速增长，Token 生成规模已达到极高量级。
在这类场景下，传统按连接、请求或服务器资源分配的负载均衡方式，可能难以充分匹配 AI 推理流量的特点。
F5 正在将调度粒度进一步下探，尝试围绕 Token 进行更细粒度的流量管理。

为什么传统负载均衡遇到压力

大模型推理并不只是一次普通 HTTP 请求。
一个用户请求可能持续生成大量 Token，并伴随较长的计算占用。
不同请求之间的 Token 数、响应时长、模型资源消耗差异很大。

在这种情况下，如果仍主要依赖传统负载指标，可能会出现资源分配不均、延迟波动或吞吐效率下降等问题。

Token级调度的思路

Token 级调度关注的不只是“来了多少请求”，而是“正在生成多少 Token”。
它更贴近大模型推理过程中的真实计算负载。
理论上，这类调度方式可以帮助系统更细致地感知模型服务压力。

不过，从原文可确认的信息看，具体产品形态、技术细节和落地效果仍需查看 F5 后续披露。

对AI基础设施的启发

大模型应用正在改变网络与负载均衡层的设计假设。
AI 网关、推理集群、模型服务平台，可能都需要更面向 Token、上下文长度和生成过程来做调度。
未来基础设施竞争点，可能不只在算力本身，也包括如何更高效地管理模型流量。

社区讨论点

Token 级调度会成为大模型网关的标配吗？
它更适合云厂商、模型服务商，还是企业私有化推理集群？
对开发者来说，是否需要在 API 层暴露更多 Token 消耗与实时负载信息？

来源：Token日生成数百万亿，传统负载均衡不够用了：F5 开始做Token级调度（https://www.infoq.cn/article/uMwuLAA4BmHlN9YhFgIT?utm_source=rss&utm_medium=article）

AI新闻动态 #技术资讯

浏览(7)

评论

请登录后发表观点

暂无数据