Informe técnico, peso, demo todo publicado, comparado con Kling-Foley tampoco queda atrás, la comunidad de código abierto finalmente tiene un marco de video y efectos de sonido que puede competir.

Ver original
BlockBeatNews
Xiaomi ha abierto el modelo de doblaje de video de código abierto ControlFoley, la forma en que se desea ajustar el sonido la decide cada individuo
Durante la monitorización de Beating, el equipo de Xiaomi ha abierto el marco de efectos de sonido y video ControlFoley, enfatizando la controllabilidad: generar sonidos según la imagen, texto o audio de referencia, y modificar el estilo de voz manteniendo la sincronización de audio y video. La capa base utiliza un codificador de audio y video espacial-temporal modificado de CAV-MAE, implementando la desacoplamiento de tiempo y tono. La evaluación de múltiples tareas alcanza el estado del arte en código abierto, y es competitiva en comparación con Kling-Foley, aunque aún presenta brechas en algunos indicadores KL en Kling-Audio-Eval y MovieGen-Audio-Bench. El proyecto ha publicado informes técnicos, código, pesos y demostraciones.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado