Desde Whisper hasta la destilación DMD2, la pila tecnológica está bastante sólida, la generalización multilingüe y de estilos de anime me resulta muy atractiva como creador de contenido derivado.

Ver original
MeNews
Meituan open source LongCat-Video-Avatar1.5 marco de avatar digital reducción de inferencia a 8 pasos
El equipo LongCat de Meituan ha abierto el código de LongCat-Video-Avatar 1.5, publicando completamente el código y los pesos. Se ha cambiado a Whisper-large-v3 para mejorar la sincronización de labios multilingüe y la generalización de estilos, utilizando inferencia de desplazamiento en múltiples fragmentos y destilación de pasos reducida basada en DMD2 para reducir la inferencia a 8 pasos, equilibrando velocidad y fidelidad. Tras 508 pares de datos fuente, 770 evaluadores con 13,240 decisiones y 10 expertos que evaluaron, se ha mejorado significativamente la estabilidad temporal, la coherencia de identidad y la naturalidad de los movimientos de los labios, además de poder generalizar a estilos de anime y animales, soportando de forma nativa audio mono y multicanal. Licencia MIT, principalmente para uso académico, para uso comercial se requiere verificación adicional.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado