Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
С рывком и рывком роза оживает! Google предлагает генеративную динамику изображений, и теперь все будет живо
Первоисточник: Синьчжиюань
Посмотрите, слегка потянув, роза начинает двигаться.
Наконец, это было реализовано, и при взаимодействии с одним изображением можно было создавать даже бесконечный цикл видео.
В будущем фантазия художников больше не будет ограничена традиционными рамками, и в этом динамичном образном пространстве станет возможно все.
Все на картинке оживает
Движение всего в мире мультимодально.
Одежда, висящая во дворе, покачивалась взад и вперед на ветру.
Взяв фотографию, исследователи смогут представить, как она двигалась, когда была сделана фотография.
Учитывая нынешнее развитие генеративных моделей, особенно моделей диффузии, можно моделировать очень богатые и сложные распределения.
Это делает возможными многие приложения, которые ранее были невозможны, например, создание произвольно реалистичных изображений из текста. Модель диффузии не только полезна в области изображений, но и может использоваться для моделирования видеополя.
Модель обучается на основе траекторий движения, автоматически извлекаемых из большого количества реальных видеопоследовательностей.
На основе входного изображения обученная модель предсказывает «нейронную стохастическую текстуру движения»: набор основных коэффициентов движения, которые описывают будущую траекторию каждого пикселя.
Затем диффузионная модель используется для прогнозирования «нейронных стохастических текстур движения».
Полученная текстура частотного пространства может быть преобразована в плотные траектории движения пикселей на большие расстояния, которые можно использовать для синтеза будущих кадров, превращая статические изображения в реалистичную анимацию.
Введение в технологию
На основе одного изображения
Система, построенная исследователями, состоит из двух модулей: «модуля прогнозирования действий» и «модуля рендеринга на основе изображений».
Во-первых, исследователи использовали «модель скрытой диффузии» в качестве входного изображения.
На втором этапе обратное дискретное преобразование Фурье используется для преобразования предсказанной текстуры случайного движения в серию полей смещения движения.
Эти поля смещения движения будут использоваться для определения положения каждого входного пикселя на каждом будущем временном шаге.
Используя эти прогнозируемые поля движения, модуль рендеринга исследователей использует методы рендеринга на основе изображений, чтобы получить функции кодирования из входных изображений RGB и декодировать эти выбранные функции в выходные кадры через сеть синтеза изображений.
Нейронная текстура случайного движения
текстура движения
В предыдущем исследовании текстура движения определяла серию изменяющихся во времени 2D-карт смещения.
Чтобы сгенерировать будущий кадр в момент времени t, можно использовать соответствующую карту смещения:
Как было показано ранее в исследованиях компьютерной графики, многие естественные движения, особенно колебательные движения, можно описать как суперпозицию небольшого набора гармонических осцилляторов, представленных разными частотами, амплитудами и фазами.
Один из способов привнести хаотичность в движение — интегрировать шумовые поля. Но, как показали предыдущие исследования, добавление случайного шума непосредственно в пространственную и временную области прогнозируемых полей движения часто приводит к нереалистичной или нестабильной анимации.
Кроме того, использование текстуры движения во временной области, определенной выше, означает, что необходимо спрогнозировать T 2D полей смещения для генерации видеосегмента, содержащего T кадров. Чтобы избежать прогнозирования такого большого выходного представления, многие предыдущие методы анимации либо генерируют видеокадры авторегрессионно, либо независимо прогнозируют каждый будущий выходной кадр посредством дополнительного временного внедрения.
Однако ни одна из стратегий не гарантирует, что сгенерированные видеокадры будут согласованы во времени в долгосрочной перспективе, и обе могут создавать видео, которые со временем дрейфуют или расходятся.
Чтобы решить вышеупомянутые проблемы, исследователи представляют попиксельную текстуру движения входной сцены в частотной области (т. е. полные траектории движения всех пикселей) и формулируют задачу прогнозирования движения как мультимодальное преобразование изображения в изображение. задача.
Исследователи использовали модель скрытой диффузии (LDM) для создания текстуры случайного движения, состоящей из 4K-канальной 2D-спектрограммы движения, где K << T — количество смоделированных частот, и на каждой частоте исследователям потребовалось четыре скаляра для представления комплексные коэффициенты Фурье в измерениях x и y.
На изображении ниже показаны эти нейронные текстуры случайного движения.
Чтобы проверить эту гипотезу, исследователи рассчитали средний спектр мощности движения, извлеченный из 1000 случайно выбранных 5-секундных реальных видеоклипов. Как показано на левом рисунке ниже, мощность в основном сосредоточена на низкочастотных компонентах.
На практике исследователи обнаружили, что первых коэффициентов Фурье K = 16 было достаточно для точного воспроизведения оригинальных естественных движений в ряде реальных видео и сцен.
Используйте модель диффузии для прогнозирования действий
Исследователи выбрали модель скрытой диффузии (LDM) в качестве ядра модуля прогнозирования действий исследователей, поскольку LDM более эффективна в вычислительном отношении, чем модель диффузии в пиксельном пространстве, сохраняя при этом качество генерации.
Стандартный LDM в основном включает в себя два модуля:
Вариационный автокодировщик (VAE) сжимает входное изображение в скрытое пространство через кодер z = E(I), а затем восстанавливает входные данные из скрытых признаков через декодер I = D(z).
Модель диффузии, основанная на U-Net, которая учится итеративно шумоподавлять скрытые функции, начиная с гауссовского случайного шума.
Обучение исследователей применялось не к входным изображениям, а к текстурам случайных действий из реальных видеопоследовательностей, которые были закодированы, а затем распределены на n шагов по заранее определенному графику отклонений для получения шумных скрытых переменных zn.
Адаптивная нормализация частоты
Исследователи наблюдали проблему, при которой текстуры случайного действия имеют определенные свойства распределения по частоте. Как показано на левой панели изображения выше, амплитуда текстуры движения исследователей колеблется от 0 до 100 и затухает примерно экспоненциально с увеличением частоты.
Поскольку диффузионные модели требуют выходных значений от 0 до 1 для стабильного обучения и шумоподавления, исследователи должны нормализовать коэффициенты S, извлеченные из реальных видео, перед обучением с их использованием.
Если исследователи масштабируют величину коэффициентов S до [0,1] на основе ширины и высоты изображения, то почти все коэффициенты будут близки к нулю на более высоких частотах, как показано на рисунке выше (справа).
Модели, обученные на таких данных, могут производить неточные действия, поскольку во время вывода даже небольшие ошибки прогнозирования могут привести к большим относительным ошибкам после денормализации, когда нормализованная величина S коэффициента очень близка к нулю.
Чтобы решить эту проблему, исследователи применили простой, но эффективный метод частотно-адаптивной нормализации. В частности, исследователи сначала нормализовали коэффициенты Фурье на каждой частоте независимо на основе статистики, рассчитанной на основе обучающего набора.
Частотно-координированное шумоподавление
Простой способ предсказать текстуру случайного действия S с K частотными диапазонами — вывести тензор с 4K каналами из стандартной диффузионной U-сети.
Однако обучение модели созданию такого большого количества каналов часто приводит к слишком плавным и неточным результатам.
Другой подход заключается в независимом прогнозировании спектрограммы действия на каждой отдельной частоте путем введения дополнительных частотных вложений в LDM, но это приводит к нерелевантным предсказаниям в частотной области и, следовательно, к нереалистичным действиям.
Поэтому исследователи предложили частотно-скоординированную стратегию шумоподавления, показанную на рисунке ниже. В частности, учитывая входное изображение I0, мы сначала обучаем LDM прогнозировать карты текстур случайного действия с четырьмя каналами для каждой отдельной частоты, где мы вводим дополнительные частотные представления в LDM вместе с внедрениями временных шагов в сети.
Далее исследователи описывают, как визуализировать кадр ˆIt в момент времени t в будущем, используя текстуру случайного движения S, предсказанную для данного входного изображения I0. Во-первых, исследователи использовали обратное во времени БПФ (быстрое преобразование Фурье) для расчета поля траектории движения в каждой точке пикселя p.
Мы совместно обучаем сеть извлечения признаков и синтеза, используя начальные и целевые кадры, случайно выбранные из реальных видео, где мы используем оцененное поле потока от I0 до It, чтобы исказить закодированные признаки I0, и используем потерю восприятия VGG для прогнозирования. .
Дополнительные расширенные приложения
Далее исследователи продемонстрировали применение добавления динамических эффектов к одному статическому изображению с использованием предложенного исследователями процесса представления движения и анимации.
Изображение в видео
Система исследователей анимирует одно статическое изображение, сначала предсказывая нейронную текстуру случайного движения на основе входного изображения, а затем применяя модуль рендеринга на основе изображений к полю смещения движения, полученному на основе текстуры случайного движения.
Поскольку мы моделировали движение сцены явно, это позволило нам создавать замедленные видеоролики путем линейной интерполяции полей смещения движения и увеличивать (или уменьшать) анимированное движение, регулируя амплитуду предсказанных коэффициентов текстуры случайного движения.
Бесшовная петля
Иногда полезно создавать видеоролики с плавным циклическим движением, то есть между началом и концом видео нет разрывов во внешнем виде или движении.
К сожалению, сложно найти большой обучающий набор плавно зацикленных видеороликов. Поэтому исследователи разработали метод, использующий модель диффузии движения, которая была обучена на обычных видеоклипах без зацикливания, для создания плавно зацикленных видеороликов.
Вдохновленный недавними исследованиями управляемого редактирования изображений, подход исследователей представляет собой метод самостоятельного управления движением, который использует явные ограничения цикла для управления процессом выборки с шумоподавлением движения.
В частности, на каждом этапе итеративного шумоподавления на этапе вывода исследователи включали дополнительный сигнал управления движением наряду со стандартным руководством без классификатора, где мы заставляли каждый пиксель находиться в позициях начала и конца кадра, а скорости были максимально похожими.
Создание интерактивной анимации из одного изображения
Спектр пространственного движения изображения в наблюдаемом видео колеблющегося объекта аппроксимирует модальную основу физической вибрации объекта.
Модальные формы фиксируют колебательную динамику объекта на разных частотах, поэтому проекцию шаблонов вибрации объекта в пространстве изображения можно использовать для моделирования реакции объекта на определяемую пользователем силу, например толчок или тягу.
Поэтому исследователи использовали ранее изученную методику модального анализа, которая предполагает, что движение объекта можно объяснить суперпозицией набора резонаторов.
Это позволяет исследователям записать поле смещения двумерного движения в пространстве изображения физического отклика объекта как взвешенную сумму коэффициентов спектра Фурье и комплексных модальных координат каждого временного шага моделирования t и времени t.
Экспериментальная оценка
Исследовательская группа провела количественное сравнение новейшего метода и базового метода на тестовом наборе ранее не просмотренных видеоклипов.
Было обнаружено, что подход Google значительно превосходит предыдущие базовые стандарты анимации с одним изображением как по качеству синтеза изображений, так и по качеству видео.
В частности, расстояния FVD и DT-FVD Google намного ниже, что указывает на то, что видео, созданные этим методом, более реалистичны и согласованы во времени.
Поскольку Google использует глобальное стохастическое представление текстуры движения, его подход создает видео, которые более стабильны с течением времени, не дрейфуют и не ухудшаются с течением времени.
Сначала показан пространственно-временной срез Xt сгенерированного видео, как показано на рисунке 7.
Динамика видеороликов, созданных Google, больше похожа на модели движения, наблюдаемые в соответствующих реальных эталонных видеороликах (второй столбец). Базовые линии, такие как случайные I2V и MCVD, не могут реалистично моделировать внешний вид и движение во времени.
Метод, созданный Google, создает кадры, которые демонстрируют меньше артефактов и искажений по сравнению с другими методами, а соответствующие поля 2D-движения наиболее похожи на эталонные поля смещения, оцененные на основе соответствующих реальных видео.
об авторе
Чжэнци Ли
Он является лауреатом премии CVPR 2019 «Почетное упоминание за лучшую статью», стипендии Google PhD 2020 года, исследовательской стипендии Adobe 2020 года, премии Baidu Global Artificial Intelligence Top 100 China Rising Star Award 2021 года и почетной награды CVPR 2023 года за лучшую статью.
Использованная литература: