Повідомлення з Coinjie.com: команда застосунків великої моделі Xiaomi випустила та відкрила фреймворк для генерації відео та звукових ефектів ControlFoley. Основною особливістю цієї моделі є «керованість», яка дозволяє створювати звуки відповідно до відео, а також приймати текстовий опис або зразковий аудіо для генерації звуків згідно з намірами творця. ControlFoley використовує просторово-часовий відео та аудіо кодер на основі модифікації cav-mae, а також вводить стратегію «розв'язання часу та тембру», що забезпечує синхронізацію звуку з відео. Ця модель досягла рівня передових результатів у кількох стандартних тестах озвучування відео з відкритим кодом, і технічний звіт, код, ваги моделі та демонстраційні приклади вже доступні для публічного використання.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
BitcoinRalliesOver5Percent
16.1K Популярність
#
IsraelStrikesIranBTCPlunges
56.39K Популярність
#
WinGoldBarsWithGrowthPoints
1.35M Популярність
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.81M Популярність
#
PredictNBAChampionWin20000U
185.84K Популярність

Закріплено

карта сайту

Розділення часу та тембру — досить цікава ідея, нарешті не потрібно слухати штучний голос із однаковими шаблонними звуками, сподіваюся, спробую на практиці.

Популярні теми

BitcoinRalliesOver5Percent

IsraelStrikesIranBTCPlunges

WinGoldBarsWithGrowthPoints

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Закріплено