Оновлення Google Translate: Gemini 3.5 робить миттєвий голосовий переклад більш плавним без незручних пауз

Google оголосила про запуск Gemini 3.5 Live Translate — модель для миттєвого голосового перекладу, яка одночасно підтримує понад 70 мов, зберігаючи інтонацію та ритм мовця, і вже доступна для попереднього перегляду розробників, корпоративної версії Meet та додатку Google Translate.
(Попередній огляд: Google відкрила миттєвий переклад для всіх брендів навушників: понад 70 мов, запуск для Android у США, Мексиці та Індії)
(Додатковий контекст: Юрист Лін Шанлунь у статті: «Коли ви запитуєте ШІ, що поїсти сьогодні на обід, світ переосмислює енергетичний ландшафт навколо цього питання»)

Мільярд слів щомісяця. Це обсяг перекладів Google Translate сьогодні, і результат двадцятирічної роботи. 9 червня Google у своєму офіційному блозі оголосила про запуск нової аудіо-моделі Gemini Live API: Gemini 3.5 Live Translate. Її мета — зробити мову не перешкодою у спілкуванні.

Початок і кінець мільярда слів

Ядро Gemini 3.5 Live Translate — «голос у голос», переклад у реальному часі з збереженням інтонації, ритму та висоти голосу мовця.

Раніше системи чекали завершення висловлювання, щоб почати переклад, що призводило до перерв у розмові та руйнувало її ритм. Gemini 3.5 Live Translate використовує «безперервне генерування», що дозволяє в режимі реального часу балансувати між «очікуванням додаткового контексту для підвищення точності» та «негайним виведенням перекладу, щоб йти в ногу з мовцем». Затримка становить лише кілька секунд, система автоматично розпізнає понад 70 мов без необхідності ручного перемикання.

Google відкрила три способи доступу: через Gemini Live API та публічний попередній перегляд для розробників у Google AI Studio; з цього місяця — приватний корпоративний попередній перегляд у Google Meet; а також глобальне оновлення додатку Google Translate на Android та iOS.

На Android додано режим «слухання»: тримайте телефон біля вуха — переклад голосу буде транслюватися через динамік, без навушників і без перешкод для оточуючих. Це зручно для прослуховування іноземних екскурсій у музеї або для телефонних розмов іноземною мовою у тихих місцях.

Канали розповсюдження — це фортеця

Миттєвий голосовий переклад — не унікальна розвага Google. Конкуренцію складають Meta SeamlessM4T, Samsung Galaxy AI для миттєвих дзвінків, Apple Live Translation, OpenAI Realtime API — цей сегмент вже заповнений технічними та фінансовими гравцями.

Різниця — у поширенні. Мільярд активних користувачів щомісяця у додатку Google Translate, проникнення Google Meet у корпоративному секторі, глобальні поставки Android-пристроїв забезпечують охоплення. Кожна нова функція оновлюється безпосередньо у вже популярних інструментах, а не вимагає встановлення додаткових додатків.

Приклад Grab демонструє, наскільки реальна ця «фортеця». Ця платформа таксі та доставки з Південно-Східної Азії тестує можливість миттєвого багатомовного спілкування між водіями та пасажирами через Gemini 3.5 Live Translate. Щомісяця через платформу здійснюється понад 10 мільйонів голосових дзвінків, що в умовах високої мовної фрагментації (тайська, в’єтнамська, малайська, індонезійська, філіппінська) робить миттєвий переклад базовою інфраструктурою.

Ранні партнери, такі як CJ ENM і LiveKit, вже відгукнулися, зазначаючи, що якість перекладу, точність і затримки відповідають очікуванням.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено