Gemini 3.1 Flash Live випуск: відповіді менше ніж за секунду, зможеш почути, чи ти поспішаєш.

robot
Генерація анотацій у процесі

Google випустила Gemini 3.1 Flash Live мовну модель

Що це таке

Gemini 3.1 Flash Live базується на можливостях Gemini 3 Pro і спеціально навчена для голосових сценаріїв. Основні оновлення:

  • Час відгуку менше 1 секунди (результати тестування приблизно 0.96 секунди)
  • Може розпізнавати ваш тон і емоції, і відповідно коригувати стиль відповіді
  • Контекстне вікно розширено до 128K токенів
  • В умовах шуму розпізнає точніше (оціночний бал Scale AI 36.1%)
  • Підтримує понад 90 мов, охоплюючи більше 200 країн і регіонів

Моя думка:

  • Це “голосовий пріоритет” цілеспрямована ітерація: не змінюючи базову велику модель, а модульно оптимізуючи затримку і розуміння тону.
  • Відчуття тону покращує досвід спілкування: не лише чує, що ви сказали, але й може обрати більш відповідний спосіб відповіді, виходячи з того, як ви це сказали.
  • Більше контекстне вікно разом із покращеною обробкою шуму роблять її більш практичною у повсякденних ситуаціях: у машині, на кухні, в офісі — у цих шумних умовах має працювати краще.

Конкретні можливості та дані

Вимірювання Зміна Дані
Затримка Швидший відгук Реально близько 0.96 секунди
Відчуття тону Коригує стиль відповідно до терміновості/цікавість/розчарування Оптимізовано для природного спілкування
Довжина контексту Вікно подвоєно 128K токенів
Обробка шуму Стабільніше розпізнавання в шумному середовищі Оцінка Scale AI 36.1%
Охоплення Ширше 90+ мов, 200+ країн/регіонів

Технічний шлях і концепція дизайну

  • Використання модульного рішення: на базі Gemini 3 Pro навчено спеціальну мовну модель, змінюючи лише затримку та розуміння тону, без зміни основної архітектури. Це дозволяє швидше оновлюватись і знижувати витрати.
  • Стратегія реагування на тон:
    • Якщо ви звучите терміново → відповідь більш пряма, коротша
    • Якщо ви звучите цікаво → відповідь більш детальна, пояснення більш повні
    • Якщо ви звучите роздратовано → відповідь більш стримана, менше зайвих слів
  • Застосовувані сценарії: тривалі багаторазові розмови, голосові помічники в шумному середовищі, голосове керування та співпраця тощо.

Конкурентна ситуація

  • Мета Google дуже чітка: підвищити плавність і природність голосового взаємодії. Це створює тиск на OpenAI та Anthropic в сфері голосових технологій.
  • Більше контекстне вікно і адаптація тону є нинішніми диференційованими перевагами, які підходять для довших розмов і більш різноманітних сценаріїв використання.

Оцінка впливу

  • Важливість: висока
  • Категорія: випуск моделі, технологічний прогрес, динаміка галузі

Висновок: ще на ранній стадії; найбільш цінно для розробників голосового ШІ та застосунків.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити