A estrutura de avatar digital LongCat-Video-Avatar1.5 de código aberto da Meituan foi reduzida para 8 passos de inferência

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com o monitoramento do Beating, a equipe LongCat da Meituan lançou o framework de geração de vídeo de retrato com áudio de código aberto LongCat-Video-Avatar 1.5, disponibilizando totalmente o código e os pesos do modelo. Esta atualização substitui o Wav2Vec2 pelo codificador de áudio Whisper-Large, com o objetivo de oferecer maior consistência de identidade em vídeos longos e uma capacidade de generalização de estilo mais ampla. O framework agora utiliza o codificador de áudio Whisper-large-v3 para melhorar a sincronização da boca e a dinâmica dos lábios. As representações acústicas do Whisper-large-v3 aumentaram significativamente a estabilidade na geração de boca multilingue e entre idiomas. Para melhorar a estabilidade temporal, o framework adota inferência de rolagem em múltiplos segmentos durante a geração de vídeos longos, mantendo a coerência da identidade do personagem. Na inferência, foi introduzida uma técnica de destilação de passos reduzidos baseada em DMD2, comprimindo a iteração de remoção de ruído para 8 passos, acelerando a inferência para 8 NFE ao mesmo tempo que equilibra eficiência e fidelidade da imagem. A avaliação do modelo foi realizada com 508 pares de fontes de imagem e áudio. Uma avaliação crowdsourcing envolveu 770 avaliadores, coletando 13.240 julgamentos, além de 10 especialistas que avaliaram aspectos como razoabilidade física, coordenação, estabilidade temporal e consistência de identidade. A apresentação oficial comparou o framework com HeyGen, Kling Avatar 2.0 e OmniHuman-1.5, destacando melhorias na estabilidade temporal, consistência de identidade e naturalidade do movimento labial. Além de retratos realistas, o framework também pode ser generalizado para estilos de anime e animais, suportando nativamente entradas de áudio mono e multicanal. Os pesos do modelo são distribuídos sob a licença MIT. Além disso, a declaração ética na página do projeto afirma que o conteúdo gerado exibido é apenas para uso acadêmico e não permite uso comercial. Para uso comercial real, é necessário verificar separadamente os pesos, código, materiais e limites do conteúdo gerado. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 12
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-af0ea0c9
· 3h atrás
Para uso comercial, é necessário discutir separadamente, é a velha estratégia das grandes empresas ao abrir código aberto
Ver originalResponder0
HedgeHedgeBaby
· 6h atrás
Suporte nativo para múltiplos canais mono, necessário para quem faz cortes de podcasts
Ver originalResponder0
LendingRateAnxiety
· 6h atrás
Os 10 especialistas avaliaram especificamente o quê, será detalhado no artigo?
Ver originalResponder0
TheWaveOfRasterization
· 7h atrás
Aprovação positiva da licença MIT, amigável para a academia
Ver originalResponder0
GlassBottleFeather
· 7h atrás
A destilação DMD2 já se tornou padrão? Parece que todas as empresas estão usando
Ver originalResponder0
ReboundAtTheStreetCornerAfter
· 7h atrás
动物风格是什么鬼,猫说话?
Responder0
GateUser-dd8dffab
· 8h atrás
A melhoria da consistência de identidade é fundamental, pois mudar de perspetiva anteriormente pode fazer parecer que não é a mesma pessoa.
Ver originalResponder0
GateUser-c29c3db9
· 8h atrás
770 avaliadores 13240 julgamentos, essa escala de avaliação é realmente séria?
Ver originalResponder0
BridgeTroll
· 8h atrás
A generalização do estilo anime é um easter egg, o mundo da criação secundária vai ficar animado.
Ver originalResponder0
CandleAfterTheRain
· 8h atrás
A ideia de raciocínio contínuo é genial, vídeos longos não travam mais
Ver originalResponder0
Ver mais
  • Fixado