Gemini 3.1 Flash-Lite正式发布:输入价只有Claude 4.5 Haiku四分之一,GPQA高出近14个百分点

据动察 Beating 监测,谷歌 Gemini 3.1 Flash-Lite 从 3 月的 preview 转为正式版(GA),这是 Gemini 3 系列中最便宜最快的模型,正式进入高并发生产环境就绪状态。模型标配 thinking 四档推理强度控制(minimal、low、medium、high),用户可按场景在速度和质量之间调节。

定价维持 preview 水平:输入 0.25 美元/百万 token,输出 1.50 美元/百万 token。对比同档位竞品,输入价是 Claude 4.5 Haiku 的四分之一(0.25 vs 1.00 美元),输出价不到三分之一(1.50 vs 5.00 美元);比自家上一代 2.5 Flash 也便宜,输入从 0.30 降到 0.25,输出从 2.50 降到 1.50。上下文窗口 100 万 token。

性能跨级别:GPQA Diamond(研究生级科学推理)86.9%,超过 Claude 4.5 Haiku 的 73.0% 和 GPT-5 mini 的 82.3%;MMMU-Pro(多模态理解推理)76.8%,同样领先同档位对手。输出速度 363 tokens/s,比 2.5 Flash 快 45%,首 token 响应速度快 2.5 倍。Arena.ai 排行榜 Elo 得分 1432。

已有多家企业在生产环境中使用。客服平台 Gladly 用 Flash-Lite 驱动文本渠道 AI agent,每周处理数百万次客户交互,成本比同等思考级别模型低约 60%,p95 延迟约 1.8 秒,成功率 99.6%。JetBrains 用它驱动 IDE AI 助手和 Junie agent。金融操作平台 Ramp 将其用于高频延迟敏感场景。

编程是 Flash-Lite 相对短板,LiveCodeBench 72.0% 落后于 GPT-5 mini 的 80.4%。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论