Introducción a la búsqueda AlphaGo, nuevo marco de generación de videos MCTS duración de video larga supera a Sora
El artículo propone introducir un marco de planificación en la inferencia que incorpora búsquedas en árbol Monte Carlo de múltiples árboles, llamándolo Planning at Inference, para tratar la generación de videos largos como un problema de decisión secuencial, evaluando múltiples fragmentos mediante retroceso prospectivo y retropropagación de recompensas, lo que reduce significativamente la deriva semántica y la acumulación de errores en la generación por bloques. La estructura de múltiples árboles mejora la eficiencia de búsqueda y puede servir como una solución de optimización completamente plug-and-play durante la inferencia, sin necesidad de ajustar el modelo base. En los experimentos con Cosmos-Predict2, se generaron videos coherentes de alta calidad con más de 20 segundos, superando a métodos de búsqueda voraz/busqueda en haz y Best-of-N en métricas como persistencia de objetos, coherencia temporal y alineación con texto; en comparación con Sora y Kling, la duración aumentó en un 18% y un 47%, respectivamente, con calidad visual comparable. Aunque el costo computacional es alto, si se mejoran el modelo base y el hardware, esta vía podría impulsar la generación de videos largos hacia una aplicación más práctica.