VOID — это AI-рамка, разработанная совместно исследовательским институтом Netflix и INSAIT, для удаления объектов из видео и воспроизведения оставшегося физического поведения, открытая в апреле. Трехуровневый процесс: 1) Генерация quadmask с помощью SAM2/Gemini, обозначающая основные объекты, зоны перекрытия, затронутые области и фон; 2) Первоначальный этап вывода основан на дообучении CogVideoX-Fun-V1.5; 3) Опциональная стабилизация с помощью оптического потока и шумов. Для обучения использованы данные Kubric и HUMOTO, 8 блоков A100, для вывода требуется >40GB. Предпочтительные тесты показывают точность VOID 64.8%, что выше Runway. Статья не прошла рецензирование, исходный код на GitHub.

MeNews

2026-04-29 04:25:03

Генерация тезисов в процессе

AIMPACT сообщение, 14 апреля (UTC+8), исследовательский институт Netflix совместно с Софийским университетом в Болгарии INSAIT разработали VOID (Video Object and Interaction Deletion), AI-рамочную систему, которая может удалять объекты из видео и заново моделировать физическое поведение оставшихся сцен. 3 апреля она была опубликована под лицензией Apache 2.0 на Hugging Face и является первым публичным AI-инструментом Netflix Research.

Традиционные инструменты для удаления объектов из видео хорошо заполняют фон, исправляют тени и отражения, но сталкиваются с проблемами при сценах, где объекты физически взаимодействуют (столкновения, опоры, толкания). Основная способность VOID — понимание физической причинности: удаление среднего элемента из ряда домино не приведет к падению последующих; удаление человека, прыгающего в бассейн, не вызовет брызг воды; удаление человека с гитарой — гитара естественно упадет на землю.

Технологическая цепочка делится на три уровня:

Meta’s SAM2 выполняет сегментацию объектов, Google Gemini анализирует смысл сцены, создавая четырехзначную «quadmask», которая маркирует основные объекты, зоны перекрытия, зоны воздействия и фон, сообщая модели не только что нужно удалить, но и что изменится в результате.
Первый этап инференса, основанный на дообученной модели CogVideoX-Fun-V1.5-5b-InP (распространение Transformer с 5 миллиардами параметров), генерирует физически обоснованные контрафактные траектории.
Опциональный второй этап «стабилизация оптического потока с шумом», использует предсказанное на первом этапе движение для инициализации временно-зависимого шума, предотвращая деформацию объектов в длинных сегментах.

Обучение проводилось на двух наборах данных физического моделирования: около 1900 наборов данных жесткого тела Kubric и около 4500 наборов данных захвата движений человека HUMOTO, на 8 GPU A100 80GB. В 25 тестах предпочтений VOID получил 64.8% голосов, значительно опередив коммерческий инструмент Runway с 18.4%. Инференс требует более 40GB видеопамяти (уровень A100). Статья еще не прошла рецензирование, и Netflix не объявлял о планах интеграции в производственный процесс. (Источник: GitHub)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
360.22K Популярность
#
CryptoMarketsDipSlightly
264.73K Популярность
#
IsraelStrikesIranBTCPlunges
35.94K Популярность
#
#DailyPolymarketHotspot
697.11K Популярность
#
StrategyAccumulates2xMiningRate
139.47M Популярность

Закрепить

Карта сайта

Netflix открыла исходную модель удаления объектов VOID: она не только удаляет объекты, но и может пересчитывать физическое движение оставшихся объектов

Популярные темы

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Закрепить