从以应用为中心的推理转向由智能体驱动的 AI 工作流,需要新的架构方法,以优化 token 吞吐量并降低成本。BIG-IP Next for Kubernetes 现在利用 NVIDIA NIM 统计、Dynamo 运行时信号以及 GPU 遥测,在执行之前做出“推理感知”的路由决策。通过在实时将负载匹配到最合适的加速器,该方案在降低延迟和重复计算的同时,提高持续利用率。
“AI 基础设施不再只是关于获取 GPU 或对其部署进行扩缩。它已经发展为最大化每台加速器的经济产出,”F5 首席产品官 Kunal Anand 表示。“与 NVIDIA 一起,我们让 AI 工厂能够将 token 生产视为一项可衡量的业务指标。BIG-IP Next for Kubernetes 提供实现提高 GPU 良率、降低每个 token 成本并自信扩展共享 AI 平台所需的智能与治理能力。”
** 已验证的基础设施效率:结构性跃升**
性能数据不言自明。在 The Tolly Group 的验证测试中,由 NVIDIA BlueField-3 DPUs 加速的 BIG-IP Next for Kubernetes,实现了最高达 40% 的 token 吞吐量提升,TTFT(首次 token 时间)快 61%,整体请求延迟降低 34%。
这些并非渐进式改进。通过将网络、TLS/加密、AI 感知负载均衡与流量管理卸载到 NVIDIA BlueField-3 DPUs,BIG-IP Next for Kubernetes 能够保留宿主机 CPU 的能力,并释放 GPU 去做它们本来就为之构建的事情:在规模化条件下实现持续、高吞吐的推理。其结果是提升 GPU 利用率、减少排队延迟并增加 token 产出,从而在固定的基础设施占用空间内实现更低的每 token 成本。关键的是,无需修改任何模型,使这些增益可以立即部署到现有的 AI 工厂基础设施之中。对于以 token 经济性为竞争点的企业与 NeoCloud 提供商而言,这就是在两者之间的差异:一种会限制 AI 输出的基础设施,另一种则会加速它。
“NVIDIA 的加速计算基础设施,结合 F5 的 AI 感知应用交付与安全平台,可释放出更优的 AI 工厂 tokenomics——在不做任何模型变更的情况下,实现可扩展且具成本效益的推理,”NVIDIA 的网络业务高级副总裁 Kevin Deierling 表示。“通过 F5 与 NVIDIA 的共同赋能,企业可以高效且经济地扩展 AI 工厂推理。”
** 面向智能体驱动的 AI 与多租户 AI 平台而构建**
当代 AI 工作负载正日益变得由智能体驱动、持久化且具上下文感知能力。它们需要传统负载均衡无法提供的智能流量控制。增强版 BIG-IP Next for Kubernetes 解决方案现在可以支持:
F5 和 NVIDIA 通过新功能推动 AI 工厂经济,实现加速的 AI 推理
(MENAFN- Asdaf News) ** 迪拜 – Asdaf News:**
F5(NASDAQ: FFIV),全球在交付与保障每个应用和 API 方面的领导者,今日宣布其持续 ** 合作** 的扩展能力
这项扩展集成结合了 ** F5 BIG-IP Next for Kubernetes**
在 AI 系统中,token(令牌)代表可衡量的 AI 输出单位——推理过程中生成并处理的词语、符号或数据片段。token 产出的规模与速度最终决定用户体验、基础设施效率以及每台加速器的收入。
随着企业与 GPUaaS 提供商竞相将 AI 变现,并从 AI 试验转向产生收入的服务,基础设施效率已成为一项决定性指标。成功越来越不再仅仅用已部署的 GPU 容量来衡量,而是通过 token 经济性、持续的 token 吞吐量、首次 token 时间(TTFT)、每个 token 的成本以及每台 GPU 加速器的收入来衡量。F5 与 NVIDIA 的联合解决方案旨在直接应对这些指标。
** 通过智能 AI 基础设施优化 tokenomics(令牌经济)**
从以应用为中心的推理转向由智能体驱动的 AI 工作流,需要新的架构方法,以优化 token 吞吐量并降低成本。BIG-IP Next for Kubernetes 现在利用 NVIDIA NIM 统计、Dynamo 运行时信号以及 GPU 遥测,在执行之前做出“推理感知”的路由决策。通过在实时将负载匹配到最合适的加速器,该方案在降低延迟和重复计算的同时,提高持续利用率。
“AI 基础设施不再只是关于获取 GPU 或对其部署进行扩缩。它已经发展为最大化每台加速器的经济产出,”F5 首席产品官 Kunal Anand 表示。“与 NVIDIA 一起,我们让 AI 工厂能够将 token 生产视为一项可衡量的业务指标。BIG-IP Next for Kubernetes 提供实现提高 GPU 良率、降低每个 token 成本并自信扩展共享 AI 平台所需的智能与治理能力。”
** 已验证的基础设施效率:结构性跃升**
性能数据不言自明。在 The Tolly Group 的验证测试中,由 NVIDIA BlueField-3 DPUs 加速的 BIG-IP Next for Kubernetes,实现了最高达 40% 的 token 吞吐量提升,TTFT(首次 token 时间)快 61%,整体请求延迟降低 34%。
这些并非渐进式改进。通过将网络、TLS/加密、AI 感知负载均衡与流量管理卸载到 NVIDIA BlueField-3 DPUs,BIG-IP Next for Kubernetes 能够保留宿主机 CPU 的能力,并释放 GPU 去做它们本来就为之构建的事情:在规模化条件下实现持续、高吞吐的推理。其结果是提升 GPU 利用率、减少排队延迟并增加 token 产出,从而在固定的基础设施占用空间内实现更低的每 token 成本。关键的是,无需修改任何模型,使这些增益可以立即部署到现有的 AI 工厂基础设施之中。对于以 token 经济性为竞争点的企业与 NeoCloud 提供商而言,这就是在两者之间的差异:一种会限制 AI 输出的基础设施,另一种则会加速它。
“NVIDIA 的加速计算基础设施,结合 F5 的 AI 感知应用交付与安全平台,可释放出更优的 AI 工厂 tokenomics——在不做任何模型变更的情况下,实现可扩展且具成本效益的推理,”NVIDIA 的网络业务高级副总裁 Kevin Deierling 表示。“通过 F5 与 NVIDIA 的共同赋能,企业可以高效且经济地扩展 AI 工厂推理。”
** 面向智能体驱动的 AI 与多租户 AI 平台而构建**
当代 AI 工作负载正日益变得由智能体驱动、持久化且具上下文感知能力。它们需要传统负载均衡无法提供的智能流量控制。增强版 BIG-IP Next for Kubernetes 解决方案现在可以支持:
面向智能体式 AI 工作流的推理感知路由 与 NVIDIA DOCA Platform Framework(DPF)集成,以简化 NVIDIA BlueField DPU 的部署与生命周期管理 采用动态 VRFs 的 EVPN-VXLAN,用于安全的网络级多租户 在 Kubernetes 的 AI 环境中集成安全、token 治理与可观测性
这些能力使企业与 NeoCloud 提供商能够在安全共享 GPU 基础设施(跨业务单元或外部客户)时,同时保持性能隔离与可预测的服务水平。
** 面向 AI 工厂经济性的控制平面**
F5 与 NVIDIA 为企业提供了经验证的工具与最佳实践,用于优化推理架构。通过这些进展,BIG-IP Next for Kubernetes 被定位为面向 AI 工厂经济性的战略控制平面:对 token 消耗进行治理、优化流量流向,并最大化基础设施投资回报率。
组织不再需要通过过度配置来弥补低效率,现在可以从生产中已在运行的每一台 GPU 中提取更高的经济价值。其结果是提升每台 GPU 的收入、降低运营开销,并构建为持续增长而打造的可扩展 AI 服务。通过结合 NVIDIA 的基础设施遥测与 DPU 加速,以及 F5 的流量智能与安全能力,公司正在帮助企业将 AI 工厂转变为高效、可变现的平台,迎接智能体时代。
** 支持材料**
** 博客:** ** AI 工厂需要智能基础设施。《The Tolly Group》的新结果揭示原因。 ** 报告:** ** Tolly 的独立测试:F5 BIG-IP Next for Kubernetes
MENAFN25032026007116015312ID1110904062