Suporta 3500 pares de línguas! A Alibaba lança o primeiro grande modelo de interpretação simultânea com reforço visual, Qwen3.5-LiveTranslate

robot
Geração de resumo em curso
Notícias AIMPACT, 20 de maio (UTC+8), de acordo com a monitorização da Dongcha Beating, o sistema de interpretação simultânea está a evoluir de uma tradução de voz monótona para um intérprete digital multimodal capaz de ver imagens e clonar vozes humanas.
No dia 19 de maio, o Laboratório Tongyi da Alibaba anunciou oficialmente o lançamento do novo grande modelo de interpretação simultânea em tempo real de áudio e vídeo, Qwen3.5-LiveTranslate, que atualiza significativamente a capacidade de interpretação simultânea em tempo real para mais de 3500 pares de línguas e, pela primeira vez, suporta clonagem de voz em tempo real, personalização de palavras-chave e compreensão visual.
O novo modelo baseia-se na arquitetura Qwen3.5-Omni e agora suporta compreensão e escrita em 60 línguas, bem como saída de voz em 29 línguas.
Ao contrário do software tradicional de interpretação simultânea que apenas ouve áudio, o novo modelo introduz contexto visual em tempo real para eliminar ambiguidades semânticas. Por exemplo, quando aparece uma máscara específica no vídeo, o sistema pode combinar características visuais para distinguir com precisão entre uma máscara médica e uma máscara de baile de máscaras em inglês, compensando assim a falta de informação sonora.
Para eliminar os desvios de transcrição causados por ruído e sotaque, o novo modelo também introduz um mecanismo de injeção dinâmica de palavras-chave. A razão é simples: os utilizadores podem especificar diretamente nomes de pessoas, marcas ou termos da indústria no fluxo de tradução, forçando a tradução correta e evitando que nomes próprios se desviem durante a interpretação simultânea.
Na interpretação simultânea entre línguas, o modelo também suporta clonagem de voz em tempo real, sendo capaz de reproduzir em tempo real o timbre e o tom da voz original do falante no fluxo de interpretação.
Atualmente, o novo modelo já está disponível na plataforma de experiência Qwen Omni, e no futuro a API será lançada na plataforma Alibaba Cloud Bailian.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário