Netflix відкрив модель видалення відео VOID: вона не лише видаляє об’єкти, а й може перераховувати фізичний рух залишкових об’єктів

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 14 квітня (UTC+8), Netflix Research Institute у співпраці з Софійським університетом Болгарії INSAIT спільно розробили VOID (Video Object and Interaction Deletion), AI-рамку, яка може видаляти об’єкти з відео та повторно моделювати фізичну поведінку залишку сцени. 3 квітня вона була відкрито опублікована на Hugging Face під ліцензією Apache 2.0 і стала першим публічним інструментом AI від Netflix Research Institute.

Традиційні інструменти для видалення об’єктів у відео добре заповнюють фон, коригують тіні та відблиски, але при сценах з фізичним контактом між об’єктами (зіткнення, опора, штовхання) вони дають збої. Основна здатність VOID — розуміння фізичних причинно-наслідкових зв’язків: видалення середини ряду доміно, і наступні доміно не падають; видалення людини, що стрибнула у басейн, вода не розбризкується; видалення гітари, вона природно падає на землю.

Технічна лінія складається з трьох рівнів:

  1. Meta’s SAM2 виконує сегментацію об’єктів, Google Gemini аналізує семантику сцени, створюючи чотиривід «quadmask», що позначає основний об’єкт, зону перекриття, уражену зону та фон, повідомляючи моделі не лише що потрібно стерти, а й що зміниться через це

  2. Перший етап інференції, що базується на доопрацюванні з використанням Alibaba’s CogVideoX-Fun-V1.5-5b-InP (50 мільярдів параметрів дифузійного трансформера), генерує фізично обґрунтовані контрфактичні траєкторії

  3. Опційний другий етап «стабілізація за допомогою оптичного потоку та шуму», ініціалізує часорозподільний шум рухом, передбаченим на першому етапі, щоб запобігти деформації об’єктів у довгих сегментах

Дані для тренування згенеровані двома наборами фізичних симуляцій: близько 1900 наборів даних динаміки твердої тіла Kubric та близько 4500 наборів даних руху людського тіла HUMOTO, тренування завершено на 8 GPU A100 по 80 ГБ. У 25 тестах переваги VOID з показником 64,8% значно перевищують комерційний інструмент Runway з 18,4%. Інференція вимагає понад 40 ГБ відеопам’яті (рівень A100). Стаття ще не пройшла рецензування, і Netflix не оголошував про її інтеграцію у виробничий процес. (Джерело: GithHub)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити