Paolo Ardoino de Tether presenta un argumento a favor de modelos de traducción pequeños en el dispositivo

El CEO de Tether, Paolo Ardoino, ha puesto el foco en un rincón muy diferente de la inteligencia artificial: la traducción que ocurre completamente en el dispositivo, sin enviar textos sensibles a la nube.

En una publicación reciente, Ardoino enmarcó el problema en torno a la privacidad, la velocidad y la practicidad. Su argumento era lo suficientemente simple, pero toca un problema que millones de usuarios enfrentan cada día. Cuando alguien traduce una nota médica, un mensaje privado, un contrato legal, o incluso una entrada de diario personal a través de un servicio en la nube, ese texto sale del dispositivo y entra en la infraestructura de otra persona.

En muchos casos, los usuarios no saben completamente a dónde va la data, cuánto tiempo se retiene, o quién puede acceder a ella. Ardoino argumentó que esto no es solo una preocupación teórica, sino una real, especialmente en casos donde la confidencialidad importa.

Según Ardoino, la respuesta no es confiar en modelos de IA de propósito general cada vez más grandes. En cambio, él argumentó que la traducción es uno de esos trabajos donde modelos pequeños y dedicados pueden vencer a “Goliat”.

En su opinión, si la tarea es traducir un idioma a otro, no hay necesidad de usar un modelo masivo que también pueda escribir poemas, resumir artículos y realizar una docena de tareas no relacionadas. Para la traducción, un modelo especializado construido para un propósito puede ser más pequeño, más rápido y más confiable.

Superar a los Modelos de Gran Escala (LLMs) más grandes

Ardoino señaló los límites de los modelos de lenguaje de propósito general en dispositivos en el borde, como teléfonos y laptops. Incluso modelos relativamente pequeños pueden consumir un espacio de almacenamiento significativo, tardar mucho en cargarse y aún así funcionar demasiado lentamente para una experiencia de usuario fluida.

En contraste, los modelos dedicados de traducción automática neuronal pueden ser dramáticamente más ligeros, a menudo solo unos pocos decenas de megabytes, cargándose en milisegundos y produciendo traducciones mucho más rápidamente. En la narrativa de Ardoino, esta diferencia no es solo una trivialidad técnica. Cambia lo que es posible para los usuarios reales en dispositivos reales.

Ese argumento centrado en la privacidad sitúa en el núcleo el enfoque que se impulsa a través de QVAC, el proyecto que discutió en la publicación. La idea es hacer que la traducción sea completamente local, de modo que todo el proceso ocurra en el teléfono, laptop o hardware embebido del usuario. No se necesita ninguna solicitud a la nube.

Ningún tercero necesita ver el texto. Para usuarios y desarrolladores preocupados por el cumplimiento, eso también puede significar menos dolores de cabeza en el procesamiento de datos, menos preocupaciones por transferencias transfronterizas y menos preguntas de seguridad. Ardoino también explicó cómo el equipo llegó a esta dirección.

Sus esfuerzos anteriores de traducción dependían de modelos Opus-MT, que funcionaban pero eran más grandes y lentos de lo que querían para uso móvil. La cobertura era otro problema. Si un par de idiomas no estaba disponible, entrenar un nuevo modelo requeriría trabajo adicional significativo.

El cambio a Bergamot, que describió como más pequeño, más rápido y con mayor cobertura, pareció resolver muchos de esos problemas. La publicación también dejó claro que QVAC no se limita a un solo tipo de motor de traducción. Aunque los modelos NMT dedicados son la meta a largo plazo, el sistema también puede soportar traducción basada en LLM en el ínterin.

Estrategia práctica de puente

Ardoino describió esto como una estrategia de puente práctica. Si un nuevo par de idiomas necesita ser lanzado rápidamente, primero se puede desplegar un modelo más grande, mientras se entrena en paralelo un modelo de traducción dedicado. De esa manera, los usuarios obtienen soporte inmediato y la experiencia puede mejorar con el tiempo a medida que el modelo más pequeño reemplaza la solución temporal.

Otro tema en la publicación fue la traducción por lotes. Ardoino dijo que esto se volvió importante una vez que el equipo pasó de las demostraciones a pensar en casos de uso en producción, como documentos, historiales de chat y entradas de varias frases.

Traducir una oración a la vez puede estar bien para una interfaz sencilla, pero el procesamiento por lotes hace una gran diferencia en aplicaciones reales. El equipo dijo que el resultado fue aproximadamente 2.5 veces más rápido en rendimiento a escala, con mejoras notables en la latencia por oración.

La parte más ambiciosa de la propuesta es la cobertura. En lugar de intentar construir un modelo separado para cada par de idiomas posible, QVAC usa el inglés como pivote. Eso significa que una ruta de traducción, como de español a italiano, puede ser manejada encadenando modelos de español a inglés y de inglés a italiano.

En términos prácticos, esto reduce el número de modelos necesarios de una cantidad enorme a algo mucho más manejable. Ardoino sugirió que soportar 26 idiomas podría requerir aproximadamente 50 modelos en lugar de 650, haciendo un sistema de traducción en el dispositivo mucho más realista.

También compartió números de referencia que muestran por qué el enfoque importa en hardware real. En una laptop con Linux, el modelo Bergamot de inglés a italiano se cargó en poco más de 100 milisegundos y entregó una alta calidad de traducción.

En un Pixel 10 Pro XL funcionando directamente en el dispositivo, el modelo se cargó en menos de 80 milisegundos y funcionó especialmente bien en modo por lotes. Ardoino dijo que los resultados en móvil mostraron una clara ventaja sobre la traducción secuencial, con el procesamiento por lotes produciendo una experiencia mucho más receptiva.

De cara al futuro, el equipo dijo que está expandiendo a idiomas indios a través de IndicTrans y a más idiomas africanos mediante AfriqueGemma, además de explorar la traducción en streaming para chat en vivo y generación de subtítulos. El mensaje más amplio de la publicación fue que la IA local no tiene que ser una concesión. En la traducción, al menos, Ardoino argumentó que los modelos más pequeños no solo pueden ser suficientes, sino mejores.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado