じとうけいざいアプリが入手したところによると、Google(GOOGL.US)は近日、Gemini APIの課金ティアを更新し、最適化案と価格設定はいずれも実際の推論利用ニーズに基づいて策定されています。 今回追加された推論サービスのティアには、スタンダード(Standard)、フレックス(Flex)、プライオリティ(Priority)、バッチ(Batch)、キャッシュ(Caching)版が含まれます。Googleはこう述べています:「Gemini APIは、さまざまな最適化メカニズムを提供しており、具体的な業務の負荷要件に応じて、稼働速度、利用コスト、サービスの安定性の間でバランスを取ることができます。リアルタイムの対話ロボットを構築する場合でも、大規模なオフラインのデータ処理プロセスを実行する場合でも、適切な運用モードを選ぶことで、コストを大幅に削減するか、運用効率を高められます。」その中で、フレックス推論ティアは、ピーク時間外の遊休計算リソースを活用することで、標準価格の50%オフの割引を提供し、目標遅延は1分から15分ですが、遅延保証は提供されません。バッチAPIティアも同様に標準料金の50%オフの割引を提供し、遅延は最大24時間までとなります。キャッシュティアの課金は、キャッシュトークン(Token)数と保存期間に基づきます。複雑なシステム指示を搭載する対話ロボット、長時間の動画ファイルの反復分析、大規模なドキュメント集合の検索などのシーンに推奨されます。プライオリティティアの価格は標準価格より75%から100%高く、遅延はミリ秒から秒レベルに抑えられます。Googleは、このティアをリアルタイムのカスタマーサポート対話ロボット、リアルタイムの不正検知、そしてビジネス上の重要なインテリジェントアシスタントなどのシーンでの利用を推奨しています。
谷歌(GOOGL.US)は、Gemini APIの価格を更新し、推論使用に基づく階層別課金を採用しています
じとうけいざいアプリが入手したところによると、Google(GOOGL.US)は近日、Gemini APIの課金ティアを更新し、最適化案と価格設定はいずれも実際の推論利用ニーズに基づいて策定されています。
今回追加された推論サービスのティアには、スタンダード(Standard)、フレックス(Flex)、プライオリティ(Priority)、バッチ(Batch)、キャッシュ(Caching)版が含まれます。
Googleはこう述べています:「Gemini
APIは、さまざまな最適化メカニズムを提供しており、具体的な業務の負荷要件に応じて、稼働速度、利用コスト、サービスの安定性の間でバランスを取ることができます。リアルタイムの対話ロボットを構築する場合でも、大規模なオフラインのデータ処理プロセスを実行する場合でも、適切な運用モードを選ぶことで、コストを大幅に削減するか、運用効率を高められます。」
その中で、フレックス推論ティアは、ピーク時間外の遊休計算リソースを活用することで、標準価格の50%オフの割引を提供し、目標遅延は1分から15分ですが、遅延保証は提供されません。バッチAPIティアも同様に標準料金の50%オフの割引を提供し、遅延は最大24時間までとなります。
キャッシュティアの課金は、キャッシュトークン(Token)数と保存期間に基づきます。複雑なシステム指示を搭載する対話ロボット、長時間の動画ファイルの反復分析、大規模なドキュメント集合の検索などのシーンに推奨されます。
プライオリティティアの価格は標準価格より75%から100%高く、遅延はミリ秒から秒レベルに抑えられます。Googleは、このティアをリアルタイムのカスタマーサポート対話ロボット、リアルタイムの不正検知、そしてビジネス上の重要なインテリジェントアシスタントなどのシーンでの利用を推奨しています。