De Whisper ao DMD2 destilação, a pilha de tecnologia está bem sólida, a generalização multilingue e de estilo de anime é muito atraente para alguém como eu que faz criações secundárias.

Ver original
MeNews
Meituan open source LongCat-Video-Avatar1.5 estrutura de avatar digital reduzida para 8 passos de inferência
Equipe LongCat do Meituan lança open source LongCat-Video-Avatar 1.5, liberando totalmente o código e os pesos. Substituído pelo Whisper-large-v3 para melhorar a sincronização de boca multilingue e a generalização de estilo, usando inferência de rolagem em múltiplos segmentos e destilação de poucos passos baseada em DMD2, reduzindo a inferência para 8 passos, equilibrando velocidade e fidelidade. Após 508 pares de dados de origem, 770 avaliadores com 13240 julgamentos e avaliação de 10 especialistas, melhora significativa na estabilidade temporal, consistência de identidade e naturalidade da boca, além de poder generalizar para estilos de anime e animais, suportando nativamente áudio mono/multicanal. Licença MIT, principalmente para uso acadêmico, uso comercial requer verificação adicional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado