Meituan de código aberto LongCat-Video-Avatar 1.5 estrutura de avatar digital reduzida para 8 passos de inferência

robot
Geração de resumo em curso
Notícias do site Coinjie, a equipe do LongCat da Meituan open-soube o quadro de geração de humanos digitais LongCat-Video-Avatar 1.5, reconstruindo os algoritmos de extração de áudio e geração de vídeo, com foco na estabilidade espacial e temporal de nível industrial e inferência ultrarrápida. O quadro substitui o codificador wav2vec2 pelo codificador de áudio whisper-large-v3, melhorando a sincronização dos movimentos labiais e a dinâmica dos lábios, além de reforçar a robustez na geração de movimentos labiais multilingues e multilíngues. O modelo foi otimizado por aprendizado por reforço GRPO, reduzindo artefatos como deformações nas mãos e quadros com falhas anormais, aumentando a consistência de identidade em vídeos longos. O quadro utiliza inferência de segmentos múltiplos com rolagem, aproveitando vídeos anteriores para estabelecer um contexto temporal global, mantendo a coerência da identidade do personagem. Na inferência, é introduzida a técnica de destilação de poucos passos DMD2, comprimindo a iteração de remoção de ruído na geração para 8 passos, equilibrando eficiência de inferência e fidelidade da imagem. A avaliação foi realizada com base em 508 pares de imagens e áudios, com 770 avaliadores coletando 13.240 julgamentos, e 10 especialistas avaliando em múltiplos critérios. O quadro pode ser generalizado para estilos de anime e animais, suportando entrada de áudio mono e multicanal, com pesos do modelo publicados sob licença MIT. O conteúdo exibido é apenas para uso acadêmico; uso comercial requer verificação de conteúdos relacionados.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 11
  • 3
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
MoonlightColdWallet
· 05-22 10:09
GRPO prestar atenção aos detalhes das mãos é um pouco interessante, o velho problema dos modelos de difusão é o desastre dos dedos
Ver originalResponder0
BudgetValidator
· 05-22 07:58
whisper-large-v3 realmente melhora a precisão da sincronização labial, antes o cenário do wav2vec2 multilíngue muitas vezes não correspondia corretamente
Ver originalResponder0
GateUser-6319729f
· 05-22 07:31
Licença MIT com avaliação positiva, mas os termos comerciais devem ser analisados cuidadosamente, para não cometer erros
Ver originalResponder0
GateUser-af0ea0c9
· 05-22 07:26
A melhoria da estabilidade no espaço-tempo é muito mais significativa do que simplesmente aumentar o FID, a geração de vídeos finalmente está a competir na direção certa
Ver originalResponder0
SlippageSailor
· 05-22 07:19
Deve-se incluir ou não um conjunto de dados focado em acadêmico? Quero tentar reproduzir para ver.
Ver originalResponder0
GateUser-f4ae43e9
· 05-22 07:19
O design de raciocínio por segmentos múltiplos é inteligente, e evitar que o rosto do vídeo longo congele é fundamental.
Ver originalResponder0
GotLiquidatedAgainLastNight.
· 05-22 07:10
LongCat, quem foi que escolheu esse nome, os engenheiros do Meituan também gostam de tirar fotos de gatos?
Ver originalResponder0
DeltaSmile
· 05-22 07:10
Suporte para múltiplos canais mono e estéreo, é muito adequado para ferramentas de dublagem.
Ver originalResponder0
SeaSaltAirdropNotes
· 05-22 07:10
A consistência de identidade finalmente está sendo levada a sério, antes na segunda metade dos vídeos de troca de rosto, frequentemente mudavam as pessoas.
Ver originalResponder0
CrystalBallForSentiment
· 05-22 07:10
Qual é o aumento de eficiência do DMD2? Há dados de latência na A100?
Ver originalResponder0
Ver mais
  • Fixado