Paolo Ardoino da Tether defende modelos de tradução pequenos no dispositivo

O CEO da Tether, Paolo Ardoino, colocou os holofotes numa área bastante diferente da inteligência artificial: tradução que acontece inteiramente no dispositivo, sem enviar textos sensíveis para a nuvem.

Numa publicação recente, Ardoino enquadrou a questão em torno da privacidade, velocidade e praticidade. O seu ponto era bastante simples, mas toca num problema que milhões de utilizadores enfrentam todos os dias. Quando alguém traduz uma nota médica, uma mensagem privada, um contrato legal ou até uma entrada de diário pessoal através de um serviço na nuvem, esse texto sai do dispositivo e entra na infraestrutura de outra pessoa.

Em muitos casos, os utilizadores não sabem completamente para onde vai os dados, quanto tempo são retidos ou quem pode acessá-los. Ardoino argumentou que isto não é apenas uma preocupação teórica, mas uma questão real, especialmente em casos onde a confidencialidade é importante.

Segundo Ardoino, a resposta não é confiar em modelos de IA de propósito geral cada vez maiores. Em vez disso, ele defendeu que a tradução é uma dessas tarefas onde modelos pequenos e dedicados podem superar os “Golias”.

Na sua opinião, se a tarefa é traduzir uma língua para outra, não há necessidade de usar um modelo massivo que também possa escrever poemas, resumir artigos e realizar uma dúzia de tarefas não relacionadas. Para tradução, um modelo especializado, criado para um único propósito, pode ser menor, mais rápido e mais fiável.

Superar Modelos Grandes de LLM

Ardoino apontou os limites dos modelos de linguagem de propósito geral em dispositivos de borda, como telemóveis e portáteis. Mesmo modelos relativamente pequenos podem consumir espaço de armazenamento significativo, demorar a carregar e ainda assim ser demasiado lentos para uma experiência de utilizador fluida.

Por outro lado, modelos dedicados de tradução neural podem ser dramaticamente mais leves, muitas vezes com apenas algumas dezenas de megabytes, carregando em milissegundos e produzindo traduções muito mais rapidamente. Na visão de Ardoino, esta diferença não é apenas uma curiosidade técnica. Ela muda o que é possível para utilizadores reais em dispositivos reais.

Este argumento de privacidade em primeiro lugar está no centro da abordagem promovida pelo projeto QVAC, que ele discutiu na publicação. A ideia é tornar a tradução totalmente local, de modo que todo o processo aconteça no telefone, portátil ou hardware embutido do utilizador. Nenhuma solicitação à nuvem é necessária.

Nenhuma terceira parte precisa ver o texto. Para utilizadores e desenvolvedores preocupados com conformidade, isso também pode significar menos dores de cabeça com processamento de dados, menos preocupações com transferências transfronteiriças e menos questões de segurança. Ardoino também explicou como a equipa chegou a esta direção.

Os esforços anteriores de tradução deles basearam-se em modelos Opus-MT, que funcionaram, mas eram maiores e mais lentos do que desejavam para uso móvel. A cobertura era outro problema. Se um par de línguas não estivesse disponível, treinar um novo modelo exigiria trabalho adicional significativo.

A mudança para Bergamot, que ele descreveu como menor, mais rápido e com maior cobertura, pareceu resolver muitos desses problemas. A publicação também deixou claro que o QVAC não se limita a um tipo de motor de tradução. Embora os modelos NMT dedicados sejam o objetivo a longo prazo, o sistema também pode suportar tradução baseada em LLM nesse meio tempo.

Estratégia de Ponte Prática

Ardoino descreveu isso como uma estratégia de ponte prática. Se for necessário lançar rapidamente um novo par de línguas, um modelo maior pode ser implantado primeiro, enquanto um modelo de tradução dedicado é treinado em paralelo. Assim, os utilizadores recebem suporte imediato, e a experiência pode melhorar ao longo do tempo à medida que o modelo menor substitui a solução temporária.

Outro tema do artigo foi a tradução em lote. Ardoino afirmou que isso se tornou importante assim que a equipa passou de demonstrações para casos de uso de produção, como documentos, históricos de chat e entradas de múltiplas frases.

Traduzir uma frase de cada vez pode ser suficiente para uma interface simples, mas o processamento em lote faz uma grande diferença em aplicações reais. A equipa afirmou que o resultado foi cerca de 2,5 vezes mais rápido em escala, com melhorias perceptíveis na latência por frase.

A parte mais ambiciosa da proposta é a cobertura. Em vez de tentar construir um modelo separado para cada par de línguas possível, o QVAC usa o inglês como pivô. Isso significa que um caminho de tradução, como espanhol para italiano, pode ser tratado encadeando modelos de espanhol para inglês e de inglês para italiano.

Em termos práticos, isso reduz o número de modelos necessários de um número enorme para algo muito mais gerível. Ardoino sugeriu que suportar 26 línguas poderia requerer aproximadamente 50 modelos em vez de 650, tornando um sistema de tradução no dispositivo muito mais realista.

Ele também compartilhou números de benchmarks mostrando por que a abordagem é importante em hardware real. Num portátil Linux, o modelo Bergamot de inglês para italiano carregou em pouco mais de 100 milissegundos e entregou alta qualidade de tradução.

Num Pixel 10 Pro XL, executando diretamente no dispositivo, o modelo carregou em menos de 80 milissegundos e teve um desempenho especialmente bom em modo de lote. Ardoino afirmou que os resultados móveis mostraram uma vantagem clara sobre a tradução sequencial, com o processamento em lote produzindo uma experiência muito mais responsiva.

Olhando para o futuro, a equipa disse que está a expandir para línguas indicativas através do IndicTrans e para mais línguas africanas através do AfriqueGemma, enquanto também explora tradução em streaming para chat ao vivo e geração de legendas. A mensagem mais ampla do artigo foi que a IA local não precisa ser uma concessão. Na tradução, pelo menos, Ardoino argumentou que modelos menores podem não só ser suficientes, mas melhores.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar