Paolo Ardoino, da Tether, defende modelos de tradução pequenos em dispositivos

O CEO da Tether, Paolo Ardoino, colocou em foco um canto muito diferente da inteligência artificial: tradução que acontece inteiramente no dispositivo, sem enviar textos sensíveis para a nuvem.

Em uma postagem recente, Ardoino enquadrou a questão em torno de privacidade, velocidade e praticidade. Seu ponto era simples, mas toca em um problema que milhões de usuários enfrentam todos os dias. Quando alguém traduz uma nota médica, uma mensagem privada, um contrato legal ou até uma entrada de diário pessoal por meio de um serviço na nuvem, esse texto sai do dispositivo e entra na infraestrutura de outra pessoa.

Em muitos casos, os usuários não sabem exatamente para onde os dados vão, por quanto tempo são retidos ou quem pode acessá-los. Ardoino argumentou que isso não é apenas uma preocupação teórica, mas uma questão real, especialmente em casos onde a confidencialidade importa.

Segundo Ardoino, a resposta não é confiar em modelos de IA de propósito geral cada vez maiores. Em vez disso, ele afirmou que a tradução é uma daquelas tarefas onde modelos pequenos e dedicados podem superar “Golias”.

Na visão dele, se a tarefa é traduzir um idioma para outro, não há necessidade de usar um modelo massivo que também possa escrever poemas, resumir artigos e realizar uma dúzia de tarefas não relacionadas. Para tradução, um modelo especializado, construído para um propósito, pode ser menor, mais rápido e mais confiável.

Superar Modelos Grandes de LLM

Ardoino apontou os limites dos modelos de linguagem de propósito geral em dispositivos de borda, como telefones e laptops. Mesmo modelos relativamente pequenos podem consumir armazenamento significativo, levar bastante tempo para carregar e ainda assim performar de forma lenta demais para uma experiência de usuário fluida.

Por outro lado, modelos dedicados de tradução neural podem ser drasticamente mais leves, muitas vezes com apenas algumas dezenas de megabytes, carregando em milissegundos e produzindo traduções muito mais rapidamente. Na narrativa de Ardoino, essa diferença não é apenas uma curiosidade técnica. Ela muda o que é possível para usuários reais em dispositivos reais.

Esse argumento de privacidade em primeiro lugar está no centro da abordagem promovida pelo projeto QVAC, que ele discutiu na postagem. A ideia é tornar a tradução totalmente local, de modo que todo o processo aconteça no telefone, laptop ou hardware embutido do usuário. Nenhuma solicitação na nuvem é necessária.

Nenhuma terceira parte precisa ver o texto. Para usuários e desenvolvedores preocupados com conformidade, isso também pode significar menos dores de cabeça com processamento de dados, menos preocupações com transferências transfronteiriças e menos questões de segurança. Ardoino também explicou como a equipe chegou a essa direção.

Seus esforços anteriores de tradução dependiam de modelos Opus-MT, que funcionavam, mas eram maiores e mais lentos do que desejavam para uso móvel. A cobertura também era um problema. Se um par de idiomas não estivesse disponível, treinar um novo modelo exigiria trabalho adicional significativo.

A mudança para Bergamot, que ele descreveu como menor, mais rápido e com cobertura mais ampla, pareceu resolver muitos desses problemas. A postagem também deixou claro que o QVAC não se limita a um tipo de motor de tradução. Embora modelos NMT dedicados sejam o objetivo de longo prazo, o sistema também pode suportar tradução baseada em LLM por enquanto.

Estratégia de Ponte Prática

Ardoino descreveu isso como uma estratégia de ponte prática. Se um novo par de idiomas precisa ser lançado rapidamente, um modelo maior pode ser implantado primeiro, enquanto um modelo de tradução dedicado é treinado em paralelo. Assim, os usuários recebem suporte imediato, e a experiência pode melhorar com o tempo à medida que o modelo menor substitui a solução temporária.

Outro tema do post foi a tradução em lote. Ardoino disse que isso se tornou importante quando a equipe passou de demonstrações para pensar em casos de uso de produção, como documentos, históricos de chat e entradas de várias frases.

Traduzir uma frase de cada vez pode ser suficiente para uma interface simples, mas o processamento em lote faz uma grande diferença em aplicações reais. A equipe afirmou que o resultado foi cerca de 2,5 vezes mais rápido na taxa de processamento em escala, com melhorias perceptíveis na latência por frase.

A parte mais ambiciosa da proposta é a cobertura. Em vez de tentar construir um modelo separado para cada par de idiomas possível, o QVAC usa o inglês como pivô. Isso significa que um caminho de tradução, como espanhol para italiano, pode ser tratado encadeando modelos de espanhol para inglês e inglês para italiano.

Na prática, isso reduz o número de modelos necessários de um número enorme para algo muito mais gerenciável. Ardoino sugeriu que suportar 26 idiomas poderia exigir aproximadamente 50 modelos, em vez de 650, tornando um sistema de tradução amplo no dispositivo muito mais viável.

Ele também compartilhou números de benchmark mostrando por que a abordagem importa em hardware real. Em um laptop Linux, o modelo Bergamot de inglês para italiano carregou em pouco mais de 100 milissegundos e entregou alta qualidade de tradução.

Em um Pixel 10 Pro XL rodando diretamente no dispositivo, o modelo carregou em menos de 80 milissegundos e teve desempenho especialmente bom em modo de processamento em lote. Ardoino afirmou que os resultados móveis mostraram uma vantagem clara sobre a tradução sequencial, com o processamento em lote produzindo uma experiência muito mais responsiva.

Olhando para o futuro, a equipe disse que está expandindo para idiomas indicus através do IndicTrans e para mais cobertura de idiomas africanos através do AfriqueGemma, além de explorar tradução em streaming para chat ao vivo e geração de legendas. A mensagem mais ampla do post foi que IA local não precisa ser um compromisso. Na tradução, pelo menos, Ardoino argumentou que modelos menores podem não apenas ser suficientes, mas melhores.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar