L'équipe LongCat de Meituan open source LongCat-Video-Avatar 1.5, une reconstruction de la génération audio-vidéo améliorant la stabilité spatio-temporelle et la vitesse d'inférence. Remplacement de wav2vec2 par whisper-large-v3, améliorant la synchronisation labiale et la robustesse multilingue ; renforcement par apprentissage par renforcement GRPO pour réduire les artefacts de main et les images erronées, renforçant la cohérence de l'identité sur de longues vidéos. Adoption d'une inférence en segments multiples avec contexte antérieur, DMD2 avec distillation en 8 étapes équilibrant efficacité et fidélité. Le cadre peut être généralisé au style anime/animal, supporte l'audio mono/multi-piste, sous licence MIT, principalement pour usage académique, vérifiez pour un usage commercial.

CoinNetwork

2026-05-22 07:03:57

Création du résumé en cours

消息 de Jièjiè Wǎng, l'équipe de Changmao de Meituan a open source le cadre de génération de personnages numériques LongCat-Video-Avatar 1.5, restructurant les algorithmes d'extraction audio et de génération vidéo, mettant en avant la stabilité spatio-temporelle industrielle et la rapidité de l'inférence.
Le cadre remplace l'encodeur wav2vec2 par l'encodeur audio whisper-large-v3, améliorant la synchronisation des mouvements de la bouche et la dynamique des lèvres, renforçant la robustesse de la génération de mouvements de bouche multilingues et interlinguistiques.
Le modèle est optimisé par un apprentissage par renforcement renforcé GRPO, réduisant les artefacts tels que la déformation des mains et les images aberrantes, améliorant la cohérence de l'identité dans les vidéos longues.
Le cadre utilise une inférence à segments multiples en défilement, exploitant la vidéo précédente pour établir un contexte temporel global, maintenant la cohérence de l'identité du personnage.
L'inférence introduit la technique de distillation à peu d'étapes DMD2, compressant l'itération de débruitage en 8 étapes, équilibrant efficacité de l'inférence et fidélité de l'image.
L’évaluation, basée sur 508 paires d’images et d’échantillons audio, a recueilli 13 240 jugements de 770 évaluateurs, avec 10 experts notant selon plusieurs dimensions.
Le cadre peut être généralisé aux styles anime et animal, supporte l'entrée audio mono et multicanal, et les poids du modèle sont publiés sous licence MIT.
Le contenu présenté est uniquement destiné à un usage académique, toute utilisation commerciale doit vérifier le contenu concerné.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

10 J'aime

Récompense
10
11
3
Partager

Commentaire

Ajouter un commentaire

MoonlightColdWallet

· 05-22 10:09

GRPO s'intéresse un peu aux détails des mains, le problème classique des modèles de diffusion est la catastrophe des doigts

Voir l'originalRépondre0

BudgetValidator

· 05-22 07:58

whisper-large-v3 aligner vraiment plus précis pour la synchronisation des lèvres, auparavant le scénario wav2vec2 multilingue ne correspondait souvent pas

Voir l'originalRépondre0

GateUser-6319729f

· 05-22 07:31

Licence MIT appréciée, mais il faut examiner attentivement les conditions d'utilisation commerciale pour éviter les pièges

Voir l'originalRépondre0

GateUser-af0ea0c9

· 05-22 07:26

L'amélioration de la stabilité spatio-temporelle a beaucoup plus de sens que simplement augmenter le FID, la génération vidéo est enfin en compétition dans la bonne direction

Voir l'originalRépondre0

SlippageSailor

· 05-22 07:19

Faut-il inclure ou non un ensemble de données principalement académique ? Je veux essayer de reproduire.

Voir l'originalRépondre0

GateUser-f4ae43e9

· 05-22 07:19

La conception de la inférence à segments multiples est intelligente, il est crucial que les longues vidéos ne fassent pas planter le visage.

Voir l'originalRépondre0

GotLiquidatedAgainLastNight.

· 05-22 07:10

LongCat ce nom a été choisi par qui, les ingénieurs de Meituan aussi aiment-ils adopter des chats ?

Voir l'originalRépondre0

DeltaSmile

· 05-22 07:10

Le son mono et multicanal sont tous pris en charge, ce qui est très adapté pour un outil de doublage.

Voir l'originalRépondre0

SeaSaltAirdropNotes

· 05-22 07:10

La cohérence de l'identité est enfin prise au sérieux, auparavant la seconde moitié des vidéos de changement de visage changeait souvent de personne

Voir l'originalRépondre0

CrystalBallForSentiment

· 05-22 07:10

De combien s'améliore l'efficacité de DMD2 ? Y a-t-il des données de latence sur l'A100 ?

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
319.61K Popularité
#
PlatinumCardCreatorExclusive
114.76K Popularité
#
IsraelStrikesIranBTCPlunges
49.03K Popularité
#
#DailyPolymarketHotspot
1.05M Popularité
#
GateSquarePizzaDay
648.72K Popularité

Épinglé

Meituan open source LongCat-Video-Avatar 1.5 cadre numérique de raisonnement réduit à 8 étapes

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé