Meituan open source LongCat-Video-Avatar 1.5 marco digital humanoid framework inference reduced to 8 steps

robot
Generación de resúmenes en curso
Noticias de Binance.com, el equipo de Changmao de Meituan ha abierto el marco de generación de personajes digitales LongCat-Video-Avatar 1.5, que reconstruye los algoritmos de extracción de audio y generación de video, enfocándose en la estabilidad espacial y temporal a nivel industrial y en la inferencia rápida. El marco reemplaza el codificador wav2vec2 por el codificador de audio whisper-large-v3, mejorando la sincronización de los movimientos de la boca y la dinámica de los labios, y fortaleciendo la robustez en la generación de movimientos labiales multilingües y entre idiomas. El modelo ha sido optimizado mediante aprendizaje por refuerzo GRPO, reduciendo las distorsiones en las manos y los artefactos de fotogramas duplicados o anómalos, y mejorando la coherencia de identidad en videos largos. El marco utiliza inferencia de fragmentos múltiples con desplazamiento, aprovechando videos previos para establecer un contexto temporal global y mantener la coherencia de la identidad del personaje. En la inferencia, se introduce la técnica de destilación de pasos reducidos DMD2, comprimiendo la iteración de eliminación de ruido en 8 pasos, equilibrando la eficiencia de inferencia y la fidelidad de la imagen. La evaluación se realizó con 508 pares de muestras de imágenes y audio, y 770 evaluadores recopilaron 13,240 juicios, con 10 expertos calificando desde múltiples dimensiones. El marco puede generalizarse a estilos de anime y animales, soporta entradas de audio mono y multicanal, y los pesos del modelo se publican bajo la licencia MIT. El contenido mostrado es solo para uso académico; para uso comercial, se debe verificar el contenido relevante.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 11
  • 3
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
MoonlightColdWallet
· 05-22 10:09
GRPO Los detalles de las manos son bastante interesantes, el problema clásico de los modelos de difusión es la catástrofe de los dedos
Ver originalResponder0
BudgetValidator
· 05-22 07:58
whisper-large-v3 realmente mejora mucho en la sincronización de los movimientos labiales, antes en escenarios con wav2vec2 multilingüe a menudo no coincidía.
Ver originalResponder0
GateUser-6319729f
· 05-22 07:31
La licencia MIT es muy buena, pero hay que revisar cuidadosamente los términos comerciales para no llevarse sorpresas
Ver originalResponder0
GateUser-af0ea0c9
· 05-22 07:26
La mejora en la estabilidad del espacio-tiempo tiene mucho más sentido que simplemente aumentar el FID, finalmente la generación de videos está compitiendo en la dirección correcta.
Ver originalResponder0
SlippageSailor
· 05-22 07:19
¿Se debe incluir un conjunto de datos centrado en lo académico? Quiero intentar reproducirlo y ver.
Ver originalResponder0
GateUser-f4ae43e9
· 05-22 07:19
El diseño de razonamiento por fragmentos múltiples es inteligente, que los videos largos no se bloqueen la cara es muy importante.
Ver originalResponder0
GotLiquidatedAgainLastNight.
· 05-22 07:10
¿Quién puso ese nombre de LongCat? ¿Los ingenieros de Meituan también acarician gatos?
Ver originalResponder0
DeltaSmile
· 05-22 07:10
Soporta tanto mono como multicanal, ¡es muy adecuado para crear herramientas de doblaje!
Ver originalResponder0
SeaSaltAirdropNotes
· 05-22 07:10
La consistencia de identidad finalmente ha sido tomada en serio, antes en los videos de cambio de rostro la segunda mitad a menudo cambiaban de persona.
Ver originalResponder0
CrystalBallForSentiment
· 05-22 07:10
¿En cuánto aumenta la eficiencia de DMD2? ¿Tienes datos de latencia en A100?
Ver originalResponder0
Ver más
  • Fijado