Розділення часу та тембру — досить цікава ідея, нарешті не потрібно слухати штучний голос із однаковими шаблонними звуками, сподіваюся, спробую на практиці.

Переглянути оригінал
CoinNetwork
Повідомлення з Coinjie.com: команда застосунків великої моделі Xiaomi випустила та відкрила фреймворк для генерації відео та звукових ефектів ControlFoley. Основною особливістю цієї моделі є «керованість», яка дозволяє створювати звуки відповідно до відео, а також приймати текстовий опис або зразковий аудіо для генерації звуків згідно з намірами творця. ControlFoley використовує просторово-часовий відео та аудіо кодер на основі модифікації cav-mae, а також вводить стратегію «розв'язання часу та тембру», що забезпечує синхронізацію звуку з відео. Ця модель досягла рівня передових результатів у кількох стандартних тестах озвучування відео з відкритим кодом, і технічний звіт, код, ваги моделі та демонстраційні приклади вже доступні для публічного використання.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено