据动察 Beating 監測、グーグルの Gemini 3.1 Flash-Lite は3月のプレビューから正式版(GA)に移行しました。これは Gemini 3 シリーズの中で最も安価で最も高速なモデルであり、本番の高並行性環境に適した状態です。モデルには標準で思考の4段階推論強度制御(minimal、low、medium、high)が搭載されており、ユーザーはシナリオに応じて速度と品質のバランスを調整できます。価格はプレビューと同水準を維持:入力0.25ドル/百万トークン、出力1.50ドル/百万トークンです。同クラスの競合製品と比較して、入力価格はClaude 4.5 Haikuの4分の1(0.25 vs 1.00ドル)、出力価格は3分の1未満(1.50 vs 5.00ドル);自社の前世代2.5 Flashよりも安く、入力は0.30から0.25に、出力は2.50から1.50に下がっています。コンテキストウィンドウは100万トークン。性能は次のレベルを超えています:GPQA Diamond(大学院レベルの科学推論)86.9%、Claude 4.5 Haikuの73.0%、GPT-5 miniの82.3%を上回る;MMMU-Pro(マルチモーダル理解推論)76.8%、同じクラスの競合をリードしています。出力速度は363トークン/秒で、2.5 Flashより45%高速、最初のトークン応答速度は2.5倍速い。Arena.aiのランキングEloスコアは1432です。すでに複数の企業が本番環境で使用しています。カスタマーサポートプラットフォームGladlyはFlash-Liteを用いてテキストチャネルのAIエージェントを運用し、毎週数百万回の顧客インタラクションを処理、コストは同等の思考レベルのモデルより約60%低く、p95遅延は約1.8秒、成功率は99.6%。JetBrainsはこれを用いてIDEのAIアシスタントやJunieエージェントを駆動しています。金融操作プラットフォームRampは高頻度遅延敏感なシナリオに採用しています。プログラミングに関してはFlash-Liteはやや短所があり、LiveCodeBenchは72.0%でGPT-5 miniの80.4%に遅れをとっています。
Gemini 3.1 Flash-Lite正式发布:输入价只有Claude 4.5的四分之一,GPQA高出近14个百分点
据动察 Beating 監測、グーグルの Gemini 3.1 Flash-Lite は3月のプレビューから正式版(GA)に移行しました。これは Gemini 3 シリーズの中で最も安価で最も高速なモデルであり、本番の高並行性環境に適した状態です。モデルには標準で思考の4段階推論強度制御(minimal、low、medium、high)が搭載されており、ユーザーはシナリオに応じて速度と品質のバランスを調整できます。
価格はプレビューと同水準を維持:入力0.25ドル/百万トークン、出力1.50ドル/百万トークンです。同クラスの競合製品と比較して、入力価格はClaude 4.5 Haikuの4分の1(0.25 vs 1.00ドル)、出力価格は3分の1未満(1.50 vs 5.00ドル);自社の前世代2.5 Flashよりも安く、入力は0.30から0.25に、出力は2.50から1.50に下がっています。コンテキストウィンドウは100万トークン。
性能は次のレベルを超えています:GPQA Diamond(大学院レベルの科学推論)86.9%、Claude 4.5 Haikuの73.0%、GPT-5 miniの82.3%を上回る;MMMU-Pro(マルチモーダル理解推論)76.8%、同じクラスの競合をリードしています。出力速度は363トークン/秒で、2.5 Flashより45%高速、最初のトークン応答速度は2.5倍速い。Arena.aiのランキングEloスコアは1432です。
すでに複数の企業が本番環境で使用しています。カスタマーサポートプラットフォームGladlyはFlash-Liteを用いてテキストチャネルのAIエージェントを運用し、毎週数百万回の顧客インタラクションを処理、コストは同等の思考レベルのモデルより約60%低く、p95遅延は約1.8秒、成功率は99.6%。JetBrainsはこれを用いてIDEのAIアシスタントやJunieエージェントを駆動しています。金融操作プラットフォームRampは高頻度遅延敏感なシナリオに採用しています。
プログラミングに関してはFlash-Liteはやや短所があり、LiveCodeBenchは72.0%でGPT-5 miniの80.4%に遅れをとっています。