アプリケーション中心の推論からエージェント駆動のAIワークフローへの移行は、トークンスループットを最適化しコストを削減する新しいアーキテクチャアプローチを必要とします。BIG-IP Next for Kubernetesは、NVIDIA NIM統計、Dynamoランタイム信号、GPUテレメトリを活用し、実行前に推論対応のルーティング判断を行います。これにより、ワークロードを最も適したアクセラレーターにリアルタイムでマッチングし、持続的な利用率を向上させつつ、待ち時間や再計算を削減します。
「AIインフラはもはやGPUへのアクセスや展開の拡大だけではありません。各アクセラレーターの経済的出力を最大化することに進化しています」と、F5のチーフプロダクトオフィサー、クナル・アナンドは述べています。「NVIDIAと共に、私たちはAIファクトリーにおいてトークン生成を測定可能なビジネスメトリックとして扱えるようにしています。BIG-IP Next for Kubernetesは、GPUの収益性を高め、トークンあたりのコストを削減し、共有AIプラットフォームを自信を持って拡大できるためのインテリジェンスとガバナンスを提供します。」
** 検証済みインフラ効率性:構造的向上**
性能数値はその証拠です。The Tolly Groupによる検証で、NVIDIA BlueField-3 DPUを搭載したBIG-IP Next for Kubernetesは、トークンスループットを最大40%向上させ、最初のトークンまでの時間(TTFT)を61%高速化し、全体のリクエスト遅延を34%削減しました。
これらは単なる段階的な改善ではありません。ネットワーキング、TLS/暗号化、AI対応の負荷分散、トラフィック管理をNVIDIA BlueField-3 DPUにオフロードすることで、BIG-IP Next for KubernetesはホストCPUの容量を維持し、GPUを本来の目的である高スループットの推論に専念させます。その結果、GPUの利用率向上、待ち行列遅延の削減、トークン収量の増加が実現し、固定インフラストラクチャ内でのコスト削減を可能にします。重要なのは、モデルの変更を必要とせず、既存のAIファクトリーインフラに即座に展開できる点です。トークン経済学で競争する企業やNeoCloudプロバイダーにとって、これはAI出力を制約するインフラと、それを加速させるインフラの違いです。
F5とNVIDIAは、推論アーキテクチャの最適化に役立つ検証済みツールとベストプラクティスを提供します。これらの進歩により、BIG-IP Next for Kubernetesは、トークン消費の管理、トラフィックフローの最適化、インフラ投資収益の最大化を行う戦略的コントロールプレーンへと位置付けられます。
F5 と NVIDIA が新機能を備えた AI 先進工場経済学を加速させるための AI 推論
(MENAFN- Asdaf News) ** ドバイ – Asdaf News:**
F5(NASDAQ: FFIV)、すべてのアプリとAPIの提供とセキュリティの世界的リーダーは、本日、継続的なコラボレーションにおける拡張機能を発表しました。
この拡張された統合は、F5 BIG-IP Next for Kubernetesを組み合わせています。
AIシステムにおいて、トークンはAI出力の測定可能な単位を表します。これは、推論中に生成・処理される言葉、記号、またはデータの断片です。トークンの生成量と速度は、最終的にユーザー体験、インフラの効率性、そしてアクセラレーターあたりの収益を決定します。
企業やGPUaaSプロバイダーがAIの収益化を競い合い、AI実験から収益を生むサービスへと移行する中で、インフラの効率性は重要な指標となっています。成功はもはや展開されたGPU容量だけで測られるものではなく、トークン経済学、持続的なトークンスループット、最初のトークンまでの時間(TTFT)、トークンあたりのコスト、GPUアクセラレーターあたりの収益によって測定されるようになっています。F5とNVIDIAの共同ソリューションは、これらの指標に直接対応するよう設計されています。
** インテリジェントなAIインフラによるトークン経済の最適化**
アプリケーション中心の推論からエージェント駆動のAIワークフローへの移行は、トークンスループットを最適化しコストを削減する新しいアーキテクチャアプローチを必要とします。BIG-IP Next for Kubernetesは、NVIDIA NIM統計、Dynamoランタイム信号、GPUテレメトリを活用し、実行前に推論対応のルーティング判断を行います。これにより、ワークロードを最も適したアクセラレーターにリアルタイムでマッチングし、持続的な利用率を向上させつつ、待ち時間や再計算を削減します。
「AIインフラはもはやGPUへのアクセスや展開の拡大だけではありません。各アクセラレーターの経済的出力を最大化することに進化しています」と、F5のチーフプロダクトオフィサー、クナル・アナンドは述べています。「NVIDIAと共に、私たちはAIファクトリーにおいてトークン生成を測定可能なビジネスメトリックとして扱えるようにしています。BIG-IP Next for Kubernetesは、GPUの収益性を高め、トークンあたりのコストを削減し、共有AIプラットフォームを自信を持って拡大できるためのインテリジェンスとガバナンスを提供します。」
** 検証済みインフラ効率性:構造的向上**
性能数値はその証拠です。The Tolly Groupによる検証で、NVIDIA BlueField-3 DPUを搭載したBIG-IP Next for Kubernetesは、トークンスループットを最大40%向上させ、最初のトークンまでの時間(TTFT)を61%高速化し、全体のリクエスト遅延を34%削減しました。
これらは単なる段階的な改善ではありません。ネットワーキング、TLS/暗号化、AI対応の負荷分散、トラフィック管理をNVIDIA BlueField-3 DPUにオフロードすることで、BIG-IP Next for KubernetesはホストCPUの容量を維持し、GPUを本来の目的である高スループットの推論に専念させます。その結果、GPUの利用率向上、待ち行列遅延の削減、トークン収量の増加が実現し、固定インフラストラクチャ内でのコスト削減を可能にします。重要なのは、モデルの変更を必要とせず、既存のAIファクトリーインフラに即座に展開できる点です。トークン経済学で競争する企業やNeoCloudプロバイダーにとって、これはAI出力を制約するインフラと、それを加速させるインフラの違いです。
「NVIDIAのアクセラレーテッドコンピューティングインフラと、F5のAI対応アプリケーション配信・セキュリティプラットフォームの連携により、モデルに変更を加えることなく、スケーラブルでコスト効率の良い推論を実現する優れたAIファクトリーのトークン経済性を解き放ちます」と、NVIDIAのネットワーキング部門SVP、ケビン・デイアリングは述べています。「F5とNVIDIAは、企業がAIファクトリーの推論を効率的かつ経済的に拡大できるよう支援しています。」
** エージェント駆動型AIとマルチテナントAIプラットフォーム向けに構築**
現代のAIワークロードは、ますますエージェント駆動型、持続的、コンテキスト認識型になっています。これらは、従来の負荷分散では提供できないインテリジェントなトラフィック制御を要求します。拡張されたBIG-IP Next for Kubernetesは、次の機能をサポートします。
これらの機能により、企業やNeoCloudプロバイダーは、パフォーマンスの隔離と予測可能なサービスレベルを維持しながら、GPUインフラをビジネスユニットや外部顧客と安全に共有できます。
** AIファクトリー経済のためのコントロールプレーン**
F5とNVIDIAは、推論アーキテクチャの最適化に役立つ検証済みツールとベストプラクティスを提供します。これらの進歩により、BIG-IP Next for Kubernetesは、トークン消費の管理、トラフィックフローの最適化、インフラ投資収益の最大化を行う戦略的コントロールプレーンへと位置付けられます。
非効率を補うために過剰にプロビジョニングするのではなく、既に稼働中のGPUからより多くの経済的価値を引き出すことが可能です。その結果、GPUあたりの収益向上、運用コストの削減、持続的成長を見据えたスケーラブルなAIサービスが実現します。NVIDIAのインフラテレメトリーとDPUアクセラレーションと、F5のトラフィックインテリジェンスとセキュリティ機能を組み合わせることで、企業はAIファクトリーを効率的で収益化可能なプラットフォームへと変革し、エージェント時代に備えています。
** 付属資料**
** ブログ:** ** AIファクトリーにはインテリジェントなインフラが必要。The Tolly Groupの新しい結果が示す理由。** ** レポート:** ** Tollyによる独立検証:F5 BIG-IP Next for Kubernetes**