Paolo Ardoino de Tether défend les petits modèles de traduction sur appareil

Le PDG de Tether, Paolo Ardoino, a mis en lumière un tout autre aspect de l’intelligence artificielle : la traduction qui se fait entièrement sur l’appareil, sans envoyer de textes sensibles vers le cloud.

Dans un post récent, Ardoino a encadré le problème autour de la vie privée, de la rapidité et de la praticité. Son argument était simple, mais il touche un problème rencontré par des millions d’utilisateurs chaque jour. Lorsqu’une personne traduit une note médicale, un message privé, un contrat juridique ou même une entrée de journal personnel via un service cloud, ce texte quitte l’appareil et entre dans l’infrastructure de quelqu’un d’autre.

Dans de nombreux cas, les utilisateurs ne savent pas exactement où vont leurs données, combien de temps elles sont conservées ou qui peut y accéder. Ardoino a soutenu que ce n’est pas seulement une préoccupation théorique, mais une vraie problématique, surtout dans des cas où la confidentialité est essentielle.

Selon Ardoino, la solution n’est pas de compter sur des modèles d’IA généralistes de plus en plus grands. Au contraire, il a affirmé que la traduction est l’une de ces tâches où de petits modèles spécialisés peuvent surpasser « Goliath ».

Selon lui, si la tâche consiste à traduire d’une langue à une autre, il n’est pas nécessaire d’utiliser un modèle massif capable aussi d’écrire des poèmes, de résumer des articles ou d’effectuer une douzaine d’autres tâches non liées. Pour la traduction, un modèle spécialisé conçu pour un seul but peut être plus petit, plus rapide et plus fiable.

Surpasser les grands LLM

Ardoino a souligné les limites des modèles de langage à usage général sur des appareils en périphérie tels que les téléphones et les ordinateurs portables. Même des modèles relativement petits peuvent consommer un espace de stockage important, prendre beaucoup de temps à charger, et rester trop lents pour une expérience utilisateur fluide.

En revanche, les modèles de traduction neuronale dédiés peuvent être beaucoup plus légers, souvent seulement quelques dizaines de mégaoctets, tout en se chargeant en millisecondes et en produisant des traductions beaucoup plus rapidement. Selon Ardoino, cette différence n’est pas seulement une curiosité technique. Elle modifie ce qui est possible pour de vrais utilisateurs sur de vrais appareils.

Cet argument axé sur la confidentialité se trouve au cœur de l’approche promue par QVAC, le projet qu’il a évoqué dans le post. L’idée est de rendre la traduction entièrement locale, afin que tout le processus se déroule sur le téléphone, l’ordinateur portable ou le matériel embarqué de l’utilisateur. Aucune requête cloud n’est nécessaire.

Aucun tiers n’a besoin de voir le texte. Pour les utilisateurs et développeurs soucieux de conformité, cela peut aussi signifier moins de soucis liés au traitement des données, moins de préoccupations concernant les transferts transfrontaliers, et moins de questions de sécurité. Ardoino a également expliqué comment l’équipe est arrivée à cette orientation.

Leurs efforts antérieurs en traduction s’appuyaient sur des modèles Opus-MT, qui fonctionnaient mais étaient plus grands et plus lents que ce qu’ils souhaitaient pour une utilisation mobile. La couverture linguistique était un autre problème. Si une paire de langues n’était pas déjà disponible, entraîner un nouveau modèle nécessiterait un travail supplémentaire considérable.

Le passage à Bergamot, qu’il décrit comme plus petit, plus rapide et avec une couverture plus large, semble avoir résolu bon nombre de ces problèmes. Le post a aussi précisé que QVAC ne se limite pas à un seul type de moteur de traduction. Bien que les modèles NMT dédiés soient l’objectif à long terme, le système peut également supporter la traduction basée sur des LLM en attendant.

Stratégie de transition pratique

Ardoino a décrit cela comme une stratégie de transition pratique. Si une nouvelle paire de langues doit être déployée rapidement, un modèle plus grand peut être utilisé en premier, pendant que le modèle de traduction dédié est entraîné en parallèle. Ainsi, les utilisateurs bénéficient d’un support immédiat, et l’expérience peut s’améliorer avec le temps à mesure que le modèle plus petit remplace la solution temporaire.

Un autre thème abordé dans le post était la traduction par lots. Ardoino a indiqué que cela devenait important une fois que l’équipe a dépassé le stade des démonstrations et a commencé à envisager des cas d’utilisation en production tels que les documents, l’historique de chat et les entrées multi-phrases.

Traduire une phrase à la fois peut suffire pour une interface simple, mais le traitement par lots fait une énorme différence dans les applications réelles. L’équipe a indiqué que cela permettait d’atteindre environ 2,5 fois plus de débit à grande échelle, avec des améliorations perceptibles de la latence par phrase.

La partie la plus ambitieuse de la proposition concerne la couverture. Au lieu d’essayer de construire un modèle séparé pour chaque paire de langues possible, QVAC utilise l’anglais comme pivot. Cela signifie qu’un chemin de traduction, comme de l’espagnol à l’italien, peut être géré en chaînant des modèles espagnol-anglais et anglais-italien.

Concrètement, cela réduit le nombre de modèles nécessaires d’un nombre énorme à quelque chose de beaucoup plus gérable. Ardoino a suggéré que supporter 26 langues pourrait nécessiter environ 50 modèles au lieu de 650, rendant un système de traduction sur appareil beaucoup plus réaliste.

Il a également partagé des chiffres de référence montrant pourquoi cette approche est pertinente sur du matériel réel. Sur un ordinateur portable Linux, le modèle Bergamot anglais-italien se chargeait en un peu plus de 100 millisecondes et offrait une traduction de haute qualité.

Sur un Pixel 10 Pro XL fonctionnant directement sur l’appareil, le modèle se chargeait en moins de 80 millisecondes et performait particulièrement bien en mode batch. Ardoino a indiqué que les résultats mobiles montraient un avantage clair par rapport à la traduction séquentielle, le traitement par lots offrant une expérience beaucoup plus réactive.

En regardant vers l’avenir, l’équipe prévoit d’étendre la couverture aux langues indiennes via IndicTrans et à davantage de langues africaines via AfriqueGemma, tout en explorant la traduction en streaming pour le chat en direct et la génération de sous-titres. Le message global du post était que l’IA locale ne doit pas être une concession. En traduction, du moins, Ardoino a soutenu que de petits modèles peuvent non seulement suffire, mais être meilleurs.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler