Технічний звіт, ваги, демонстрація — все оприлюднено, порівняння з Kling-Foley теж не поступається, у відкритому співтоваристві нарешті з’явився відео та звуковий фреймворк, здатний конкурувати.

Переглянути оригінал
BlockBeatNews
Xiaomi відкрила модель озвучування відео ControlFoley, голос можна налаштувати на свій розсуд
Під час моніторингу Beating команда Xiaomi відкрила вихідний код фреймворку для відео та звукових ефектів ControlFoley, підкреслюючи його керованість: генерує звуки за допомогою зображення, тексту або опорного аудіо, при цьому можна змінювати стиль звуку та зберігати синхронізацію між звуком і зображенням. Нижній рівень використовує модифікований з урахуванням CAV-MAE просторово-часовий кодек для відео та аудіо, що реалізує розділення часу та тембру. Оцінка багатозадачності досягає відкритого SOTA, і має конкурентоспроможність у порівнянні з Kling-Foley, але все ще має прогалини у деяких показниках KL у Kling-Audio-Eval та MovieGen-Audio-Bench. Проєкт вже опублікував технічний звіт, код, ваги та демонстрацію.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено