Netflix открыла исходную модель удаления объектов VOID: она не только удаляет объекты, но и может пересчитывать физическое движение оставшихся объектов

robot
Генерация тезисов в процессе

AIMPACT сообщение, 14 апреля (UTC+8), исследовательский институт Netflix совместно с Софийским университетом в Болгарии INSAIT разработали VOID (Video Object and Interaction Deletion), AI-рамочную систему, которая может удалять объекты из видео и заново моделировать физическое поведение оставшихся сцен. 3 апреля она была опубликована под лицензией Apache 2.0 на Hugging Face и является первым публичным AI-инструментом Netflix Research.

Традиционные инструменты для удаления объектов из видео хорошо заполняют фон, исправляют тени и отражения, но сталкиваются с проблемами при сценах, где объекты физически взаимодействуют (столкновения, опоры, толкания). Основная способность VOID — понимание физической причинности: удаление среднего элемента из ряда домино не приведет к падению последующих; удаление человека, прыгающего в бассейн, не вызовет брызг воды; удаление человека с гитарой — гитара естественно упадет на землю.

Технологическая цепочка делится на три уровня:

  1. Meta’s SAM2 выполняет сегментацию объектов, Google Gemini анализирует смысл сцены, создавая четырехзначную «quadmask», которая маркирует основные объекты, зоны перекрытия, зоны воздействия и фон, сообщая модели не только что нужно удалить, но и что изменится в результате.

  2. Первый этап инференса, основанный на дообученной модели CogVideoX-Fun-V1.5-5b-InP (распространение Transformer с 5 миллиардами параметров), генерирует физически обоснованные контрафактные траектории.

  3. Опциональный второй этап «стабилизация оптического потока с шумом», использует предсказанное на первом этапе движение для инициализации временно-зависимого шума, предотвращая деформацию объектов в длинных сегментах.

Обучение проводилось на двух наборах данных физического моделирования: около 1900 наборов данных жесткого тела Kubric и около 4500 наборов данных захвата движений человека HUMOTO, на 8 GPU A100 80GB. В 25 тестах предпочтений VOID получил 64.8% голосов, значительно опередив коммерческий инструмент Runway с 18.4%. Инференс требует более 40GB видеопамяти (уровень A100). Статья еще не прошла рецензирование, и Netflix не объявлял о планах интеграции в производственный процесс. (Источник: GitHub)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить