VOID — це AI-рамка, розроблена у спільному проекті дослідницького інституту Netflix та INSAIT, яка дозволяє видаляти об’єкти з відео та відтворювати залишкову фізику, вона була відкритою для публічного доступу у квітні. Триступеневий процес: 1) SAM2/ Gemini генерує quadmask, позначаючи основний об’єкт, зони перекриття, уражені області та фон; 2) перша фаза інференції базується на донастроюванні CogVideoX-Fun-V1.5; 3) опційна стабілізація за допомогою шуму оптичного потоку. Для тренування використовуються дані Kubric, HUMOTO, 8 блоків A100, для інференції потрібно >40GB. Попередні тести показали точність VOID 64.8%, що вище за Runway. Стаття не рецензована, походить з GitHub.

MeNews

2026-04-29 04:25:03

Генерація анотацій у процесі

AIMPACT повідомлення, 14 квітня (UTC+8), Netflix Research Institute у співпраці з Софійським університетом Болгарії INSAIT спільно розробили VOID (Video Object and Interaction Deletion), AI-рамку, яка може видаляти об’єкти з відео та повторно моделювати фізичну поведінку залишку сцени. 3 квітня вона була відкрито опублікована на Hugging Face під ліцензією Apache 2.0 і стала першим публічним інструментом AI від Netflix Research Institute.

Традиційні інструменти для видалення об’єктів у відео добре заповнюють фон, коригують тіні та відблиски, але при сценах з фізичним контактом між об’єктами (зіткнення, опора, штовхання) вони дають збої. Основна здатність VOID — розуміння фізичних причинно-наслідкових зв’язків: видалення середини ряду доміно, і наступні доміно не падають; видалення людини, що стрибнула у басейн, вода не розбризкується; видалення гітари, вона природно падає на землю.

Технічна лінія складається з трьох рівнів:

Meta’s SAM2 виконує сегментацію об’єктів, Google Gemini аналізує семантику сцени, створюючи чотиривід «quadmask», що позначає основний об’єкт, зону перекриття, уражену зону та фон, повідомляючи моделі не лише що потрібно стерти, а й що зміниться через це
Перший етап інференції, що базується на доопрацюванні з використанням Alibaba’s CogVideoX-Fun-V1.5-5b-InP (50 мільярдів параметрів дифузійного трансформера), генерує фізично обґрунтовані контрфактичні траєкторії
Опційний другий етап «стабілізація за допомогою оптичного потоку та шуму», ініціалізує часорозподільний шум рухом, передбаченим на першому етапі, щоб запобігти деформації об’єктів у довгих сегментах

Дані для тренування згенеровані двома наборами фізичних симуляцій: близько 1900 наборів даних динаміки твердої тіла Kubric та близько 4500 наборів даних руху людського тіла HUMOTO, тренування завершено на 8 GPU A100 по 80 ГБ. У 25 тестах переваги VOID з показником 64,8% значно перевищують комерційний інструмент Runway з 18,4%. Інференція вимагає понад 40 ГБ відеопам’яті (рівень A100). Стаття ще не пройшла рецензування, і Netflix не оголошував про її інтеграцію у виробничий процес. (Джерело: GithHub)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
360.22K Популярність
#
CryptoMarketsDipSlightly
264.67K Популярність
#
IsraelStrikesIranBTCPlunges
35.94K Популярність
#
#DailyPolymarketHotspot
697.05K Популярність
#
StrategyAccumulates2xMiningRate
139.47M Популярність

Закріпити

карта сайту

Netflix відкрив модель видалення відео VOID: вона не лише видаляє об’єкти, а й може перераховувати фізичний рух залишкових об’єктів

Популярні теми

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Закріпити