El equipo de Changmao de Meituan ha lanzado de código abierto LongCat-Video-Avatar 1.5, que reconstruye la generación de audio y video para mejorar la estabilidad temporal y espacial, así como la velocidad de inferencia. Reemplaza wav2vec2 por whisper-large-v3, mejorando la sincronización de los movimientos de los labios y la robustez multilingüe; mediante el aprendizaje por refuerzo GRPO, reduce los artefactos en las manos y los cuadros incorrectos, fortaleciendo la coherencia de identidad en videos largos. Utiliza inferencia en fragmentos múltiples con desplazamiento y contexto previo, y el DMD2 con 8 pasos de destilación equilibra eficiencia y fidelidad. El marco puede generalizarse a estilos de anime/animal, soporta audio mono/multicanal, bajo licencia MIT, principalmente para uso académico, para uso comercial por favor verificar.

CoinNetwork

2026-05-22 07:03:57

Generación de resúmenes en curso

Noticias de Binance.com, el equipo de Changmao de Meituan ha abierto el marco de generación de personajes digitales LongCat-Video-Avatar 1.5, que reconstruye los algoritmos de extracción de audio y generación de video, enfocándose en la estabilidad espacial y temporal a nivel industrial y en la inferencia rápida. El marco reemplaza el codificador wav2vec2 por el codificador de audio whisper-large-v3, mejorando la sincronización de los movimientos de la boca y la dinámica de los labios, y fortaleciendo la robustez en la generación de movimientos labiales multilingües y entre idiomas. El modelo ha sido optimizado mediante aprendizaje por refuerzo GRPO, reduciendo las distorsiones en las manos y los artefactos de fotogramas duplicados o anómalos, y mejorando la coherencia de identidad en videos largos. El marco utiliza inferencia de fragmentos múltiples con desplazamiento, aprovechando videos previos para establecer un contexto temporal global y mantener la coherencia de la identidad del personaje. En la inferencia, se introduce la técnica de destilación de pasos reducidos DMD2, comprimiendo la iteración de eliminación de ruido en 8 pasos, equilibrando la eficiencia de inferencia y la fidelidad de la imagen. La evaluación se realizó con 508 pares de muestras de imágenes y audio, y 770 evaluadores recopilaron 13,240 juicios, con 10 expertos calificando desde múltiples dimensiones. El marco puede generalizarse a estilos de anime y animales, soporta entradas de audio mono y multicanal, y los pesos del modelo se publican bajo la licencia MIT. El contenido mostrado es solo para uso académico; para uso comercial, se debe verificar el contenido relevante.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
11
3
Compartir

Comentar

Añadir un comentario

MoonlightColdWallet

· 05-22 10:09

GRPO Los detalles de las manos son bastante interesantes, el problema clásico de los modelos de difusión es la catástrofe de los dedos

Ver originalResponder0

BudgetValidator

· 05-22 07:58

whisper-large-v3 realmente mejora mucho en la sincronización de los movimientos labiales, antes en escenarios con wav2vec2 multilingüe a menudo no coincidía.

Ver originalResponder0

GateUser-6319729f

· 05-22 07:31

La licencia MIT es muy buena, pero hay que revisar cuidadosamente los términos comerciales para no llevarse sorpresas

Ver originalResponder0

GateUser-af0ea0c9

· 05-22 07:26

La mejora en la estabilidad del espacio-tiempo tiene mucho más sentido que simplemente aumentar el FID, finalmente la generación de videos está compitiendo en la dirección correcta.

Ver originalResponder0

SlippageSailor

· 05-22 07:19

¿Se debe incluir un conjunto de datos centrado en lo académico? Quiero intentar reproducirlo y ver.

Ver originalResponder0

GateUser-f4ae43e9

· 05-22 07:19

El diseño de razonamiento por fragmentos múltiples es inteligente, que los videos largos no se bloqueen la cara es muy importante.

Ver originalResponder0

GotLiquidatedAgainLastNight.

· 05-22 07:10

¿Quién puso ese nombre de LongCat? ¿Los ingenieros de Meituan también acarician gatos?

Ver originalResponder0

DeltaSmile

· 05-22 07:10

Soporta tanto mono como multicanal, ¡es muy adecuado para crear herramientas de doblaje!

Ver originalResponder0

SeaSaltAirdropNotes

· 05-22 07:10

La consistencia de identidad finalmente ha sido tomada en serio, antes en los videos de cambio de rostro la segunda mitad a menudo cambiaban de persona.

Ver originalResponder0

CrystalBallForSentiment

· 05-22 07:10

¿En cuánto aumenta la eficiencia de DMD2? ¿Tienes datos de latencia en A100?

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
324.89K Popularidad
#
PlatinumCardCreatorExclusive
117.7K Popularidad
#
IsraelStrikesIranBTCPlunges
49.03K Popularidad
#
#DailyPolymarketHotspot
1.05M Popularidad
#
GateSquarePizzaDay
650.72K Popularidad

Fijado

Meituan open source LongCat-Video-Avatar 1.5 marco digital humanoid framework inference reduced to 8 steps

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado