Relatório técnico, peso, demonstração tudo divulgado, comparando com Kling-Foley também não fica atrás, a comunidade de código aberto finalmente tem uma estrutura de vídeo e efeitos sonoros que realmente funciona.

Ver original
BlockBeatNews
A Xiaomi lançou o modelo de dublagem de vídeo de código aberto ControlFoley, onde a pessoa decide como o som deve ser ajustado
Durante o monitoramento do Beating, a equipe da Xiaomi lançou o framework de código aberto para áudio e vídeo ControlFoley, enfatizando a controllabilidade: gerar sons com base em imagens, texto ou áudio de referência, e também alterar o estilo do som mantendo a sincronização de áudio e vídeo. A camada inferior utiliza um codificador de áudio e vídeo espacial-temporal modificado do CAV-MAE, implementando a desacoplamento de tempo e tom. A avaliação de múltiplas tarefas atingiu o estado da arte de código aberto (SOTA), e é competitiva em comparação com Kling-Foley, mas ainda apresenta lacunas em alguns indicadores KL na comparação com Kling-Audio-Eval e MovieGen-Audio-Bench. O projeto já publicou relatório técnico, código, pesos e demonstração.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado