Внедрение поиска AlphaGo, совершенно новая рамочная структура генерации видео MCTS, длительность длинного видео превышает Sora
Данная статья предлагает внедрить в фазу вывода многодеревьевый поиск Монте-Карло в рамках структуры Planning at Inference, рассматривая генерацию длинных видео как задачу последовательных решений, используя предвосхищение, обратное отслеживание и обратное распространение наград для оценки различных сегментов, что значительно смягчает проблему семантического дрейфа и накопления ошибок при блоковой генерации. Многодеревянная структура повышает эффективность поиска и может служить полностью вставляемым и отключаемым оптимизационным решением во время вывода, без необходимости дообучения базовой модели. В эксперименте Cosmos-Predict2 было сгенерировано более 20 секунд высококачественного связного видео, превосходящего по показателям устойчивости объектов, временной согласованности и соответствия тексту такие методы, как жадный поиск/лучевой поиск и Best-of-N; по сравнению с Sora и Kling, длительность увеличилась на 18% и 47% соответственно, при сохранении качества изображения. Несмотря на высокие вычислительные затраты, при улучшении базовой модели и аппаратного обеспечения этот подход может способствовать развитию генерации длинных видео в инженерных приложениях.