Google Traduction améliorée : Gemini 3.5 rend la traduction vocale en temps réel sans pauses gênantes

Google annonce le lancement de Gemini 3.5 Live Translate, un modèle de traduction vocale en temps réel capable de synchroniser la traduction dans plus de 70 langues, tout en conservant l'intonation et le rythme de la parole, et qui est désormais disponible en aperçu pour les développeurs, dans la version entreprise de Meet et dans l'application Google Traduction.
(Récapitulatif : La traduction instantanée de Google ouvre officiellement tous les marques d’écouteurs : plus de 70 langues disponibles, lancement en avant-première sur Android aux États-Unis, au Mexique et en Inde)
(Complément d'information : L'avocat Lin Shanglun écrit » Quand vous demandez à l'IA ce que vous allez manger à midi, le monde est en train de redessiner la carte énergétique autour de cette question »)

Un trillion de mots par mois. C’est le volume de traduction de Google aujourd’hui, résultat de vingt ans d’accumulation. Le 9 juin, Google a annoncé sur son blog officiel le lancement du dernier modèle audio de l’API Gemini Live : Gemini 3.5 Live Translate. Son seul objectif : faire en sorte que la langue ne soit plus une pause dans la conversation.

Le point de départ et d’arrivée d’un trillion de mots

Le cœur de Gemini 3.5 Live Translate est la traduction « voix-à-voix », avec la nécessité de préserver l’intonation, le rythme et la tonalité de la parole.

Les systèmes précédents attendaient que le locuteur ait fini sa phrase pour commencer la traduction, ce qui fragmentait complètement le rythme de la conversation. Gemini 3.5 Live Translate adopte une méthode de « génération continue », ajustant en temps réel entre « attendre plus de contexte pour améliorer la précision » et « sortir immédiatement pour suivre le locuteur », avec un décalage total de seulement quelques secondes, tout en détectant automatiquement plus de 70 langues, sans besoin de changer manuellement.

Google ouvre simultanément trois accès : via l’API Gemini Live et la prévisualisation publique pour les développeurs dans Google AI Studio ; une prévisualisation privée pour les entreprises dans Google Meet dès ce mois ; et une mise à jour mondiale de l’application Google Traduction sur Android et iOS.

Android a également ajouté un « mode d’écoute », où en plaçant le téléphone contre l’oreille, la traduction vocale est diffusée par le haut-parleur du téléphone, sans besoin d’écouteurs, et sans déranger les autres, idéal pour écouter des visites guidées en langues étrangères dans un musée ou pour recevoir un appel dans une langue étrangère dans un endroit calme.

La distribution est la véritable barrière

La traduction vocale en temps réel n’est pas l’apanage de Google. Meta avec SeamlessM4T, Samsung avec la traduction instantanée lors d’appels via Galaxy AI, Apple avec Live Translation, OpenAI avec l’API Realtime, ce secteur est déjà saturé de concurrents dotés de compétences techniques et de capitaux.

La différence réside dans la distribution. L’application Google Traduction compte plus d’un milliard d’utilisateurs actifs mensuels, la pénétration de Google Meet dans le marché des entreprises est déjà établie, et le volume mondial de smartphones Android garantit une large portée. Chaque nouvelle fonctionnalité est directement intégrée dans des outils déjà utilisés par des milliards de personnes, évitant ainsi de leur demander d’installer une nouvelle application.

Le cas de Grab illustre à quel point cette barrière de distribution est concrète. Cette plateforme de covoiturage et de livraison en Asie du Sud-Est teste actuellement une communication multilingue en temps réel entre conducteurs et passagers via Gemini 3.5 Live Translate. Avec plus de 10 millions d’appels vocaux mensuels passés via leur plateforme, cela signifie qu’en un marché où les langues sont très fragmentées (thaï, vietnamien, malais, indonésien, philippin), la traduction instantanée devient une infrastructure de base plutôt qu’une simple fonctionnalité supplémentaire.

Des partenaires précoces comme CJ ENM, LiveKit ont également rapporté que la qualité, la précision et la latence des traductions répondaient aux attentes.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé