Meituan open source LongCat-Video-Avatar1.5 marco de avatar digital reducción de inferencia a 8 pasos

robot
Generación de resúmenes en curso
ME AI Mensaje, según la monitorización de Beating, el equipo LongCat de Meituan ha lanzado el marco de generación de videos de retratos y audio de código abierto LongCat-Video-Avatar 1.5, con código y pesos del modelo completamente abiertos.
Esta actualización reemplaza Wav2Vec2 por el codificador de audio Whisper-Large, con el objetivo de ofrecer una mayor coherencia de identidad en videos largos y una capacidad de generalización de estilos más amplia.
El marco ahora utiliza el codificador de audio Whisper-large-v3 para mejorar la sincronización de la boca y la dinámica de los labios.
Las representaciones acústicas proporcionadas por Whisper-large-v3 mejoran significativamente la estabilidad en la generación de movimientos de boca multilingües y跨idiomas.
Para mejorar la estabilidad temporal, el marco emplea inferencia de fragmentos múltiples en desplazamiento en la generación de videos largos, manteniendo la coherencia de la identidad del personaje.
En la inferencia, se introduce una técnica de destilación basada en DMD2 con pasos reducidos, comprimiendo la iteración de eliminación de ruido a 8 pasos, acelerando la inferencia a 8 NFE y equilibrando eficiencia y fidelidad de la imagen.
La evaluación del modelo se realizó con 508 pares de fuente de imagen y audio.
La evaluación por crowdsourcing involucró a 770 evaluadores y recopiló 13,240 juicios, además de 10 expertos que calificaron en dimensiones como razonabilidad física, coordinación, estabilidad temporal y coherencia de identidad.
La versión oficial mostró comparaciones en el mismo escenario con HeyGen, Kling Avatar 2.0 y OmniHuman-1.5, con énfasis en mejorar la estabilidad temporal, coherencia de identidad y naturalidad de la boca.
Además de retratos realistas, el marco puede generalizarse a estilos de anime y animales, y soporta nativamente entradas de audio mono y multicanal.
Los pesos del modelo se publican bajo la licencia MIT.
Asimismo, la declaración ética en la página del proyecto indica que el contenido generado mostrado en la página se usa únicamente con fines académicos y no permite uso comercial.
El uso comercial real aún requiere verificar por separado los pesos, código, materiales y límites del contenido generado.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 12
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-af0ea0c9
· hace3h
Para uso comercial, hay que discutirlo por separado, es la vieja estrategia de las grandes empresas que abren código abierto
Ver originalResponder0
HedgeHedgeBaby
· hace6h
Soporte nativo para múltiples canales, esto lo necesitan quienes hacen fragmentos de podcasts
Ver originalResponder0
LendingRateAnxiety
· hace6h
¿Los 10 expertos evaluaron específicamente qué, lo explican con detalle en el artículo?
Ver originalResponder0
TheWaveOfRasterization
· hace7h
Aprobación positiva de la licencia MIT, amigable con la academia
Ver originalResponder0
GlassBottleFeather
· hace7h
¿La destilación de DMD2 ahora se ha convertido en un estándar? Parece que todos la están usando.
Ver originalResponder0
ReboundAtTheStreetCornerAfter
· hace7h
动物风格是什么鬼,猫说话?
Responder0
GateUser-dd8dffab
· hace8h
La mejora de la coherencia de identidad es muy importante, antes cambiar de perspectiva fácilmente parecía que no era la misma persona.
Ver originalResponder0
GateUser-c29c3db9
· hace8h
770 evaluadores 13240 decisiones, ¿en serio es envergadura de esta evaluación?
Ver originalResponder0
BridgeTroll
· hace8h
La generalización del estilo anime es un huevo de pascua, el mundo de la creación secundaria se va a poner animado.
Ver originalResponder0
CandleAfterTheRain
· hace8h
El diseño de razonamiento por desplazamiento es muy ingenioso, los videos largos ya no se bloquean.
Ver originalResponder0
Ver más
  • Fijado