Relatório técnico, pesos, demonstração tudo divulgado, comparando com Kling-Foley também não fica atrás, a comunidade de código aberto finalmente tem uma estrutura de vídeo e efeitos sonoros que realmente funciona.

Ver original
BlockBeatNews
A Xiaomi lançou o modelo de dublagem de vídeo de código aberto ControlFoley, onde a pessoa decide como quer que o som seja ajustado
Durante a monitorização do Beating, a equipa da Xiaomi lançou de forma open source a estrutura de efeitos sonoros de vídeo ControlFoley, enfatizando a controllabilidade: gerar sons com base em imagens, texto ou áudio de referência, podendo alterar o estilo do som ao mesmo tempo que mantém a sincronização áudio-visual. A camada inferior utiliza um codificador de áudio e vídeo espaço-temporal modificado a partir do CAV-MAE, implementando a desacoplamento entre tempo e tonalidade. A avaliação de múltiplas tarefas atingiu o estado da arte open source, sendo competitiva em comparação com Kling-Foley, embora ainda haja uma lacuna em alguns indicadores KL no Kling-Audio-Eval e MovieGen-Audio-Bench. O projeto já publicou o relatório técnico, código, pesos e demonstração.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado