Gemini 3.1 Flash-Lite正式发布:输入价只有Claude 4.5的四分之一,GPQA高出近14个百分点

据动察 Beating 監測、グーグルの Gemini 3.1 Flash-Lite は3月のプレビューから正式版(GA)に移行しました。これは Gemini 3 シリーズの中で最も安価で最も高速なモデルであり、本番の高並行性環境に適した状態です。モデルには標準で思考の4段階推論強度制御(minimal、low、medium、high)が搭載されており、ユーザーはシナリオに応じて速度と品質のバランスを調整できます。

価格はプレビューと同水準を維持:入力0.25ドル/百万トークン、出力1.50ドル/百万トークンです。同クラスの競合製品と比較して、入力価格はClaude 4.5 Haikuの4分の1(0.25 vs 1.00ドル)、出力価格は3分の1未満(1.50 vs 5.00ドル);自社の前世代2.5 Flashよりも安く、入力は0.30から0.25に、出力は2.50から1.50に下がっています。コンテキストウィンドウは100万トークン。

性能は次のレベルを超えています:GPQA Diamond(大学院レベルの科学推論)86.9%、Claude 4.5 Haikuの73.0%、GPT-5 miniの82.3%を上回る;MMMU-Pro(マルチモーダル理解推論)76.8%、同じクラスの競合をリードしています。出力速度は363トークン/秒で、2.5 Flashより45%高速、最初のトークン応答速度は2.5倍速い。Arena.aiのランキングEloスコアは1432です。

すでに複数の企業が本番環境で使用しています。カスタマーサポートプラットフォームGladlyはFlash-Liteを用いてテキストチャネルのAIエージェントを運用し、毎週数百万回の顧客インタラクションを処理、コストは同等の思考レベルのモデルより約60%低く、p95遅延は約1.8秒、成功率は99.6%。JetBrainsはこれを用いてIDEのAIアシスタントやJunieエージェントを駆動しています。金融操作プラットフォームRampは高頻度遅延敏感なシナリオに採用しています。

プログラミングに関してはFlash-Liteはやや短所があり、LiveCodeBenchは72.0%でGPT-5 miniの80.4%に遅れをとっています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン