Обновление Google Translate: Gemini 3.5 делает мгновенный голосовой перевод более плавным без неловких пауз

Google объявила о запуске Gemini 3.5 Live Translate — модели для синхронного перевода более 70 языков, сохраняющей интонацию и ритм говорящего, — которая уже доступна в предварительном просмотре для разработчиков, корпоративной версии Meet и приложении Google Translate.
(Предыстория: Официальный запуск мгновенного перевода Google для всех брендов наушников: более 70 языков, запуск на Android в США, Мексике и Индии)
(Дополнительный фон: Юрист Лин Шанлунь в статье — Когда вы спрашиваете ИИ, что пообедать сегодня, мир переосмысливает энергетическую карту)

Ежемесячно переводится триллион слов. Это текущий объем работы Google Translate и результат двадцатилетних усилий. 9 июня в блоге Google было объявлено о выпуске новейшей аудиомодели Gemini Live API: Gemini 3.5 Live Translate. Его единственная цель — устранить паузы в диалоге, связанные с языковым барьером.

Начало и конец триллиона слов

Ключевая особенность Gemini 3.5 Live Translate — «голос в голос» перевод, при этом сохраняется интонация, ритм и высота голоса говорящего.

Ранее системы ожидали завершения речи собеседника для начала перевода, что полностью разрушало ритм диалога из-за пауз. Gemini 3.5 Live Translate использует «непрерывное генерирование», в реальном времени регулируя баланс между «ожиданием большего контекста для повышения точности» и «немедленным выводом, чтобы идти в ногу с говорящим». Время задержки всего несколько секунд, система автоматически распознает более 70 языков без ручного переключения.

Google одновременно открыла три канала доступа: через Gemini Live API и публичный предварительный просмотр для разработчиков в Google AI Studio; в этом месяце — корпоративный приватный предварительный просмотр в Google Meet; а также глобальное обновление Google Translate на Android и iOS.

На Android добавлен «Режим прослушивания»: при приближении телефона к уху перевод произносится через динамик, без наушников и без мешания окружающим, что удобно для экскурсоводов в музеях или при тихих телефонных звонках на иностранном языке.

Каналы распространения — это защита крепости

Мгновенный голосовой перевод — не исключительная сфера Google. Конкурируют Meta с SeamlessM4T, Samsung Galaxy AI с переводом в реальном времени для звонков, Apple с Live Translation, OpenAI с Realtime API — этот сегмент уже насыщен технологическими и финансовыми ресурсами.

Разница — в распространении. Месячная активная аудитория приложения Google Translate достигает миллиарда пользователей, проникновение Google Meet в корпоративном секторе — уже готовая база, а глобальные поставки устройств Android обеспечивают охват. Каждая новая функция обновляется прямо в инструментах, которыми уже пользуются сотни миллионов и миллиарды людей, без необходимости устанавливать отдельное приложение.

Пример Grab показывает, насколько реальна эта защита. Этот юго-восточноазиатский сервис такси и доставки тестирует использование Gemini 3.5 Live Translate для мгновенного многоязычного общения между водителями и пассажирами. Ежемесячно через платформу совершается более 10 миллионов голосовых вызовов, что в условиях языкового фрагментирования (тайский, вьетнамский, малайский, индонезийский, филиппинский) превращает мгновенный перевод из дополнительной функции в инфраструктуру.

Ранние партнеры, такие как CJ ENM и LiveKit, также отметили соответствие качества, точности и задержки ожиданиям.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено