Gemini 3.1 Flash Live випуск: Google зосереджуєся на реальному часі для голосу та зору, затримка зменшена до менше ніж 300мс

robot
Генерація анотацій у процесі

Заголовок

Google DeepMind випустила Gemini 3.1 Flash Live, багатомодальну модель, розроблену для реальних голосових та візуальних агентів.

Резюме

  • Команда Google AI на чолі з Логаном Кілпатріком оголосила про випуск Gemini 3.1 Flash Live, аудіо та голосової моделі для діалогових агентів.
  • Модель приймає три види вхідних даних: аудіо, відео та текст, підтримує більше 90 мов, може фільтрувати фоновий шум.
  • Розробка тривала більше року, затримка взаємодії в режимі end-to-end зменшена до 300 мс; точність багатоетапних викликів функцій ComplexFuncBench становить 90.8%, розуміння мови Big Bench Audio - 95.9%.
  • Основна мета - ситуації з пріоритетом голосу для обслуговування клієнтів та творчості, а також додано водяний знак SynthID для маркування та ідентифікації контенту, згенерованого ШІ.

Показники та позиціювання

Показник/Бенчмарк Результат
Затримка взаємодії в режимі end-to-end <300 мс
ComplexFuncBench (багатоетапні виклики функцій) 90.8%
Big Bench Audio (розуміння мови) 95.9%
Scale AI Audio MultiChallenge (активація мислення) 36.1%
  • У порівнянні з Gemini 2.5 Flash Native Audio, цього разу виклики інструментів в багатомодальному та шумному середовищі стали більш стабільними.
  • На ринку безпосередньо конкурує з реальними голосовими агентами OpenAI GPT-Realtime та Grok Voice Agent.

Продукт та екосистема

  • Спосіб підключення: Gemini Live API вже доступний у Google AI Studio.
  • Інтеграція для підприємств: Verizon, Home Depot використовують його для голосового обслуговування клієнтів; додаток Stitch використовує його для дизайну голосового керування.

Ризики та обмеження

  • Модель ще на стадії попереднього перегляду; офіційні бенчмарки ще не мають незалежного відтворення з боку третіх осіб.
  • Оцінка Scale AI в MultiChallenge є середньою, що свідчить про те, що її стійкість до переривань та вставок потребує покращення.
  • Деміс Хасабіс та Сундар Пічаї публічно підтримують, що голосова взаємодія є одним з основних напрямків стратегії Google AI.

Перспектива дослідників

  • Ключове судження: у напрямку реального голосового/візуального багатомодального спілкування Google використовує низьку затримку, стійкість до шуму та виклики функцій, щоб заповнити прогалини в досвіді взаємодії з конкурентами.
  • Значення для розробників:
    • Можна використовувати його як «голосовий інтерфейс + центр викликів інструментів», зменшуючи бар’єри для створення обслуговування клієнтів, творчої співпраці та робочих потоків голосових команд.
    • SynthID надає дієві засоби ідентифікації для забезпечення безпеки та відповідності, що полегшує підприємствам управління ризиками та аудит.
  • Для інвесторів/спостерігачів:
    • Дані показують, що у нього є потенціал у структурованих викликах інструментів та розумінні мови, але реальна продуктивність у складних взаємодіях та перериваннях потребує подальшої верифікації.

Оцінка впливу

  • Важливість: Висока
  • Категорія: випуск моделі, запуск продукту, інструменти для розробників

Висновок: Для розробників додатків з пріоритетом голосу та підприємств інтеграції це раннє вікно можливостей; учасники торгових угод наразі не мають прямих можливостей для арбітражу. Поточна перевага явно на стороні розробників та підприємств, фонди та довгострокові інвестори в основному спостерігають.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.27KХолдери:2
    0.00%
  • Рин. кап.:$2.33KХолдери:2
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.25KХолдери:1
    0.00%
  • Закріпити