OpenAI、推論コストを半減させる新手法を発見

robot
概要作成中
議論に詳しい情報筋によると、これまで未公開だったニュースがある:今月初め、OpenAIのエンジニアは、いくつかの新しく開発された最適化技術に基づき、モデルの推論コストを半分以上削減できる解決策を見つけたと一部の同僚に伝えた。この新技術を無料/有料アカウントの訪問者がChatGPTを利用するシナリオに適用した後、必要となるNvidiaのグラフィックス処理ユニット(GPU)の数はわずか数百にまで減少した——驚くほど少ない数字である。現在、OpenAIがこのような大幅な計算効率の向上を達成するためにどのような具体的な技術的手段を用いたかは不明である。業界で一般的な最適化手法には、次のようなものがある:量子化圧縮、キー・バリューキャッシング、個別に計算する代わりにユーザークエリをバッチ処理すること、そして、一部のリクエストを低電力の軽量モデルやモデルシャードにリダイレクトして応答すること。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし