El diseño de desacoplamiento de tiempo y tono de voz es bastante interesante, finalmente ya no hay que escuchar esos efectos de sonido enlatados y monótonos de las voces generadas por IA, espero poder probarlo en la práctica.

Ver original
CoinNetwork
Noticias de Coinjie.com, el equipo de aplicaciones del gran modelo de Xiaomi lanzó y open sourceó el marco de generación de audio y video ControlFoley.
El enfoque principal de este modelo es la «capacidad de control», capaz de sincronizar el doblaje con las imágenes, así como aceptar descripciones en texto o audio de referencia, permitiendo que el sonido se genere según la intención del creador.
ControlFoley utiliza un codificador de audio y video espacial-temporal basado en una transformación de cav-mae, e introduce una estrategia de «desacoplamiento de tiempo y tono», para garantizar la sincronización entre sonido e imagen.
Este modelo ha alcanzado el nivel SOTA en varias pruebas de doblaje de video estándar, y los informes técnicos del proyecto, el código, los pesos del modelo y las demos ya están disponibles.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado