Gemini 3.1 Flash Live выпущен: по отклику менее одной секунды можно определить, торопитесь ли вы

robot
Генерация тезисов в процессе

Google выпустил голосовую модель Gemini 3.1 Flash Live

Что это

Gemini 3.1 Flash Live основан на возможностях Gemini 3 Pro и специально обучен для голосовых сценариев. Несколько основных обновлений:

  • Время отклика менее 1 секунды (результаты тестов около 0.96 секунды)
  • Может распознавать ваш тон и эмоции, и на основе этого корректировать способ ответа
  • Контекстное окно увеличено до 128K токенов
  • Более точное распознавание в шумной среде (оценка Scale AI 36.1%)
  • Поддержка более 90 языков, охватывающих более 200 стран и регионов

Мой вывод:

  • Это целевая итерация “ориентированная на голос”: не изменили базовую модель, а модульным способом отдельно оптимизировали задержку и понимание тона.
  • Чувствительность к тону значительно улучшила опыт общения: она не только слушает, что вы говорите, но и может выбрать более подходящий способ ответа в зависимости от того, как вы это говорите.
  • Большее контекстное окно и улучшенная обработка шума делают его более практичным в повседневных сценариях: в машине, на кухне, в офисе и в других шумных местах должно работать более гладко.

Конкретные возможности и данные

Параметр Изменение Данные
Задержка Быстрее отклик Реальные измерения около 0.96 секунды
Чувствительность к тону Корректировка стиля в зависимости от срочности/любопытства/разочарования Оптимизация для естественного общения
Длина контекста Увеличение окна вдвое 128K токенов
Обработка шума Более стабильное распознавание в шумной среде Оценка Scale AI 36.1%
Охват Более широкий Более 90 языков, более 200 стран/регионов

Технический подход и концепция дизайна

  • Использование модульного решения: обучение специализированной голосовой модели на основе Gemini 3 Pro, изменение только задержки и понимания тона, без изменения основной архитектуры. Это позволяет быстрее обновлять и снижать затраты.
  • Стратегия реагирования на тон:
    • Вы звучите очень срочно → ответ более прямой и короткий
    • Вы звучите любопытно → ответ более детальный и исчерпывающий
    • Вы звучите раздраженно → ответ более сдержанный, меньше лишних слов
  • Подходящие сценарии: длительные многократные диалоги, голосовые помощники в шумной среде, голосовое управление и сотрудничество и т.д.

Конкуренция

  • Цель Google очевидна: повысить плавность и естественность голосового взаимодействия. Это создает давление на OpenAI и Anthropic в отношении голосового опыта.
  • Большое контекстное окно и адаптация тона являются текущими уникальными предложениями, подходящими для более длительных диалогов и более разнообразных сценариев использования.

Оценка воздействия

  • Степень важности: высокая
  • Категория: выпуск модели, технологический прогресс, динамика отрасли

Заключение: все еще на ранней стадии; наиболее ценен для разработчиков голосовых ИИ и приложений.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$0.1Держатели:1
    0.00%
  • РК:$2.25KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • Закрепить