Gemini 3.1 Flash-Lite официально выпущен: входная цена всего четверть Claude 4.5, GPQA превышает почти на 14 процентных пунктов

По данным мониторинга Beating, Google Gemini 3.1 Flash-Lite перешел из предварительной версии (preview) в официальную версию (GA) в марте, что делает его самым дешевым и быстрым моделем в серии Gemini 3, готовым к высоконагруженной производственной среде. Модель оснащена четырьмя уровнями контроля силы рассуждения (минимальный, низкий, средний, высокий), позволяя пользователям регулировать баланс между скоростью и качеством в зависимости от сценария.

Цены остаются на уровне предварительной версии: 0,25 доллара за миллион токенов для входных данных, 1,50 доллара за миллион токенов для выходных. В сравнении с конкурентами того же уровня, цена за входные данные в четыре раза ниже, чем у Claude 4.5 Haiku (0,25 против 1,00 доллара), а цена за выходные менее чем в три раза ниже (1,50 против 5,00 доллара); дешевле, чем предыдущая версия 2.5 Flash, где цена за входные данные снизилась с 0,30 до 0,25, а за выходные — с 2,50 до 1,50. Контекстное окно — 1 миллион токенов.

Производительность на новом уровне: GPQA Diamond (научное рассуждение уровня аспиранта) 86,9%, что превышает 73,0% у Claude 4.5 Haiku и 82,3% у GPT-5 mini; MMMU-Pro (мультимодальное понимание и рассуждение) 76,8%, также превосходит конкурентов того же уровня. Скорость вывода — 363 токена в секунду, что на 45% быстрее 2.5 Flash, а время отклика на первый токен — в 2,5 раза быстрее. Elo-оценка в рейтинге Arena.ai — 1432.

Множество компаний уже используют его в производственной среде. Платформа поддержки клиентов Gladly использует Flash-Lite для управления текстовыми AI-агентами, обрабатывая миллионы взаимодействий с клиентами еженедельно, при этом стоимость примерно на 60% ниже, чем у моделей аналогичного уровня рассуждения, задержка p95 — около 1,8 секунды, уровень успешных взаимодействий — 99,6%. JetBrains использует его для AI-помощников в IDE и агента Junie. Финансовая платформа Ramp применяет его в сценариях с высокой частотой и чувствительностью к задержкам.

Программирование — слабое место Flash-Lite, LiveCodeBench показывает 72,0%, уступая 80,4% у GPT-5 mini.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить