El cambio de wav2vec2 a whisper-large-v3 muestra una mejora evidente en la robustez de la sincronización de labios en múltiples idiomas, la línea divisoria entre académico y comercial debe ser claramente reconocida.

Ver original
CoinNetwork
Meituan open source LongCat-Video-Avatar 1.5 marco digital humanoid framework inference reduced to 8 steps
El equipo de Changmao de Meituan ha lanzado de código abierto LongCat-Video-Avatar 1.5, que reconstruye la generación de audio y video para mejorar la estabilidad temporal y espacial, así como la velocidad de inferencia. Reemplaza wav2vec2 por whisper-large-v3, mejorando la sincronización de los movimientos de los labios y la robustez multilingüe; mediante el aprendizaje por refuerzo GRPO, reduce los artefactos en las manos y los cuadros incorrectos, fortaleciendo la coherencia de identidad en videos largos. Utiliza inferencia en fragmentos múltiples con desplazamiento y contexto previo, y el DMD2 con 8 pasos de destilación equilibra eficiencia y fidelidad. El marco puede generalizarse a estilos de anime/animal, soporta audio mono/multicanal, bajo licencia MIT, principalmente para uso académico, para uso comercial por favor verificar.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado