本論文は、推論段階で多木モンテカルロ木探索を導入したPlanning at Inferenceフレームワークを提案し、長い動画生成を逐次意思決定問題と見なす。前方予測と逆伝播による報酬評価を通じて、さまざまなクリップを評価し、ブロック生成に伴う意味のドリフトや誤差の蓄積を大幅に緩和する。多木構造は探索効率を向上させ、完全に差し替え可能な推論最適化手法として、基盤モデルの微調整を必要としない。Cosmos-Predict2の実験では、20秒を超える高品質で一貫性のある動画を生成し、物体の持続性、時間的連続性、テキストとの整合性などの指標で、貪欲法やビームサーチ、Best-of-Nを上回った。SoraやKlingと比較して、長さはそれぞれ18%と47%向上し、画質も同等である。計算コストは高いものの、基盤モデルとハードウェアの向上により、このアプローチは長動画生成の工業化を促進する可能性がある。