A equipe LongCat do Meituan open sourceou LongCat-Video-Avatar 1.5, com uma reconstrução do geração de áudio e vídeo para melhorar a estabilidade temporal e espacial e a velocidade de inferência. Substituiu o wav2vec2 pelo whisper-large-v3, aprimorando a sincronização dos movimentos labiais e a robustez multilingue; através do reforço de aprendizagem GRPO, reduziu artefatos nas mãos e quadros incorretos, fortalecendo a consistência da identidade em vídeos longos. Utiliza inferência em múltiplos segmentos com rotação e contexto anterior, com o DMD2 de 8 passos de destilação equilibrando eficiência e fidelidade. A estrutura pode ser generalizada para estilos de anime/animal, suportando áudio mono/multicanal, licença MIT, voltada principalmente para uso acadêmico, para uso comercial, por favor, verifique.

CoinNetwork

2026-05-22 07:03:57

Geração de resumo em curso

Notícias do site Coinjie, a equipe do LongCat da Meituan open-soube o quadro de geração de humanos digitais LongCat-Video-Avatar 1.5, reconstruindo os algoritmos de extração de áudio e geração de vídeo, com foco na estabilidade espacial e temporal de nível industrial e inferência ultrarrápida. O quadro substitui o codificador wav2vec2 pelo codificador de áudio whisper-large-v3, melhorando a sincronização dos movimentos labiais e a dinâmica dos lábios, além de reforçar a robustez na geração de movimentos labiais multilingues e multilíngues. O modelo foi otimizado por aprendizado por reforço GRPO, reduzindo artefatos como deformações nas mãos e quadros com falhas anormais, aumentando a consistência de identidade em vídeos longos. O quadro utiliza inferência de segmentos múltiplos com rolagem, aproveitando vídeos anteriores para estabelecer um contexto temporal global, mantendo a coerência da identidade do personagem. Na inferência, é introduzida a técnica de destilação de poucos passos DMD2, comprimindo a iteração de remoção de ruído na geração para 8 passos, equilibrando eficiência de inferência e fidelidade da imagem. A avaliação foi realizada com base em 508 pares de imagens e áudios, com 770 avaliadores coletando 13.240 julgamentos, e 10 especialistas avaliando em múltiplos critérios. O quadro pode ser generalizado para estilos de anime e animais, suportando entrada de áudio mono e multicanal, com pesos do modelo publicados sob licença MIT. O conteúdo exibido é apenas para uso acadêmico; uso comercial requer verificação de conteúdos relacionados.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
11
3
Partilhar

Comentar

Adicionar um comentário

MoonlightColdWallet

· 05-22 10:09

GRPO prestar atenção aos detalhes das mãos é um pouco interessante, o velho problema dos modelos de difusão é o desastre dos dedos

Ver originalResponder0

BudgetValidator

· 05-22 07:58

whisper-large-v3 realmente melhora a precisão da sincronização labial, antes o cenário do wav2vec2 multilíngue muitas vezes não correspondia corretamente

Ver originalResponder0

GateUser-6319729f

· 05-22 07:31

Licença MIT com avaliação positiva, mas os termos comerciais devem ser analisados cuidadosamente, para não cometer erros

Ver originalResponder0

GateUser-af0ea0c9

· 05-22 07:26

A melhoria da estabilidade no espaço-tempo é muito mais significativa do que simplesmente aumentar o FID, a geração de vídeos finalmente está a competir na direção certa

Ver originalResponder0

SlippageSailor

· 05-22 07:19

Deve-se incluir ou não um conjunto de dados focado em acadêmico? Quero tentar reproduzir para ver.

Ver originalResponder0

GateUser-f4ae43e9

· 05-22 07:19

O design de raciocínio por segmentos múltiplos é inteligente, e evitar que o rosto do vídeo longo congele é fundamental.

Ver originalResponder0

GotLiquidatedAgainLastNight.

· 05-22 07:10

LongCat, quem foi que escolheu esse nome, os engenheiros do Meituan também gostam de tirar fotos de gatos?

Ver originalResponder0

DeltaSmile

· 05-22 07:10

Suporte para múltiplos canais mono e estéreo, é muito adequado para ferramentas de dublagem.

Ver originalResponder0

SeaSaltAirdropNotes

· 05-22 07:10

A consistência de identidade finalmente está sendo levada a sério, antes na segunda metade dos vídeos de troca de rosto, frequentemente mudavam as pessoas.

Ver originalResponder0

CrystalBallForSentiment

· 05-22 07:10

Qual é o aumento de eficiência do DMD2? Há dados de latência na A100?

Ver originalResponder0

Ver mais

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
324.89K Popularidade
#
PlatinumCardCreatorExclusive
117.7K Popularidade
#
IsraelStrikesIranBTCPlunges
49.03K Popularidade
#
#DailyPolymarketHotspot
1.05M Popularidade
#
GateSquarePizzaDay
650.72K Popularidade

Fixado

Meituan de código aberto LongCat-Video-Avatar 1.5 estrutura de avatar digital reduzida para 8 passos de inferência

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado