Ao passar do wav2vec2 para o whisper-large-v3, a melhoria na robustez da sincronização labial multilingue é evidente, a linha de divisão entre uso acadêmico e comercial deve ser claramente reconhecida.

Ver original
CoinNetwork
Meituan de código aberto LongCat-Video-Avatar 1.5 estrutura de avatar digital reduzida para 8 passos de inferência
A equipe LongCat do Meituan open sourceou LongCat-Video-Avatar 1.5, com uma reconstrução do geração de áudio e vídeo para melhorar a estabilidade temporal e espacial e a velocidade de inferência. Substituiu o wav2vec2 pelo whisper-large-v3, aprimorando a sincronização dos movimentos labiais e a robustez multilingue; através do reforço de aprendizagem GRPO, reduziu artefatos nas mãos e quadros incorretos, fortalecendo a consistência da identidade em vídeos longos. Utiliza inferência em múltiplos segmentos com rotação e contexto anterior, com o DMD2 de 8 passos de destilação equilibrando eficiência e fidelidade. A estrutura pode ser generalizada para estilos de anime/animal, suportando áudio mono/multicanal, licença MIT, voltada principalmente para uso acadêmico, para uso comercial, por favor, verifique.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado