El equipo LongCat de Meituan ha abierto el código de LongCat-Video-Avatar 1.5, publicando completamente el código y los pesos. Se ha cambiado a Whisper-large-v3 para mejorar la sincronización de labios multilingüe y la generalización de estilos, utilizando inferencia de desplazamiento en múltiples fragmentos y destilación de pasos reducida basada en DMD2 para reducir la inferencia a 8 pasos, equilibrando velocidad y fidelidad. Tras 508 pares de datos fuente, 770 evaluadores con 13,240 decisiones y 10 expertos que evaluaron, se ha mejorado significativamente la estabilidad temporal, la coherencia de identidad y la naturalidad de los movimientos de los labios, además de poder generalizar a estilos de anime y animales, soportando de forma nativa audio mono y multicanal. Licencia MIT, principalmente para uso académico, para uso comercial se requiere verificación adicional.

MeNews

2026-05-22 08:04:01

Generación de resúmenes en curso

ME AI Mensaje, según la monitorización de Beating, el equipo LongCat de Meituan ha lanzado el marco de generación de videos de retratos y audio de código abierto LongCat-Video-Avatar 1.5, con código y pesos del modelo completamente abiertos.
Esta actualización reemplaza Wav2Vec2 por el codificador de audio Whisper-Large, con el objetivo de ofrecer una mayor coherencia de identidad en videos largos y una capacidad de generalización de estilos más amplia.
El marco ahora utiliza el codificador de audio Whisper-large-v3 para mejorar la sincronización de la boca y la dinámica de los labios.
Las representaciones acústicas proporcionadas por Whisper-large-v3 mejoran significativamente la estabilidad en la generación de movimientos de boca multilingües y跨idiomas.
Para mejorar la estabilidad temporal, el marco emplea inferencia de fragmentos múltiples en desplazamiento en la generación de videos largos, manteniendo la coherencia de la identidad del personaje.
En la inferencia, se introduce una técnica de destilación basada en DMD2 con pasos reducidos, comprimiendo la iteración de eliminación de ruido a 8 pasos, acelerando la inferencia a 8 NFE y equilibrando eficiencia y fidelidad de la imagen.
La evaluación del modelo se realizó con 508 pares de fuente de imagen y audio.
La evaluación por crowdsourcing involucró a 770 evaluadores y recopiló 13,240 juicios, además de 10 expertos que calificaron en dimensiones como razonabilidad física, coordinación, estabilidad temporal y coherencia de identidad.
La versión oficial mostró comparaciones en el mismo escenario con HeyGen, Kling Avatar 2.0 y OmniHuman-1.5, con énfasis en mejorar la estabilidad temporal, coherencia de identidad y naturalidad de la boca.
Además de retratos realistas, el marco puede generalizarse a estilos de anime y animales, y soporta nativamente entradas de audio mono y multicanal.
Los pesos del modelo se publican bajo la licencia MIT.
Asimismo, la declaración ética en la página del proyecto indica que el contenido generado mostrado en la página se usa únicamente con fines académicos y no permite uso comercial.
El uso comercial real aún requiere verificar por separado los pesos, código, materiales y límites del contenido generado.
(Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
12
2
Compartir

Comentar

Añadir un comentario

GateUser-af0ea0c9

· hace3h

Para uso comercial, hay que discutirlo por separado, es la vieja estrategia de las grandes empresas que abren código abierto

Ver originalResponder0

HedgeHedgeBaby

· hace6h

Soporte nativo para múltiples canales, esto lo necesitan quienes hacen fragmentos de podcasts

Ver originalResponder0

LendingRateAnxiety

· hace6h

¿Los 10 expertos evaluaron específicamente qué, lo explican con detalle en el artículo?

Ver originalResponder0

TheWaveOfRasterization

· hace7h

Aprobación positiva de la licencia MIT, amigable con la academia

Ver originalResponder0

GlassBottleFeather

· hace7h

¿La destilación de DMD2 ahora se ha convertido en un estándar? Parece que todos la están usando.

Ver originalResponder0

ReboundAtTheStreetCornerAfter

· hace7h

动物风格是什么鬼，猫说话？

Responder0

GateUser-dd8dffab

· hace8h

La mejora de la coherencia de identidad es muy importante, antes cambiar de perspectiva fácilmente parecía que no era la misma persona.

Ver originalResponder0

GateUser-c29c3db9

· hace8h

770 evaluadores 13240 decisiones, ¿en serio es envergadura de esta evaluación?

Ver originalResponder0

BridgeTroll

· hace8h

La generalización del estilo anime es un huevo de pascua, el mundo de la creación secundaria se va a poner animado.

Ver originalResponder0

CandleAfterTheRain

· hace8h

El diseño de razonamiento por desplazamiento es muy ingenioso, los videos largos ya no se bloquean.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
263.48K Popularidad
#
PlatinumCardCreatorExclusive
71.88K Popularidad
#
IsraelStrikesIranBTCPlunges
48.62K Popularidad
#
#DailyPolymarketHotspot
1.03M Popularidad
#
GateSquarePizzaDay
606.99K Popularidad

Fijado

Meituan open source LongCat-Video-Avatar1.5 marco de avatar digital reducción de inferencia a 8 pasos

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado