De Whisper para DMD2 destilação, a pilha tecnológica está bastante sólida, a generalização multilingue e de estilos de anime é muito atraente para alguém como eu que faz criações secundárias.

Ver original
MeNews
A estrutura de avatar digital LongCat-Video-Avatar1.5 de código aberto da Meituan foi reduzida para 8 passos de inferência
Equipe LongCat do Meituan lança de código aberto LongCat-Video-Avatar 1.5, com código e pesos totalmente publicados.
Substituído pelo Whisper-large-v3 para melhorar a sincronização labial multilingue e a generalização de estilos, usando inferência de rolagem em múltiplos segmentos e destilação de poucos passos baseada em DMD2, reduzindo a inferência para 8 passos, equilibrando velocidade e fidelidade.
Após 508 pares de dados de origem, 770 avaliadores com 13240 julgamentos e avaliação de 10 especialistas, melhora significativamente a estabilidade temporal, a consistência de identidade e a naturalidade da boca, podendo generalizar para estilos de anime e animais, suportando nativamente áudio mono/multicanal.
Licença MIT, voltado principalmente para uso acadêmico, uso comercial requer verificação adicional.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado