Hanya saat tahap perencanaan yang dilakukan, model dasar tidak perlu diubah, optimisasi plug-and-play ini jika daya komputasi turun sedikit, pembuatan video panjang benar-benar bisa beralih dari proses pembuatan manual menjadi proses rekayasa

Lihat Asli
BlockBeatNews
Memperkenalkan pencarian AlphaGo, kerangka kerja pembuatan video MCTS yang sepenuhnya baru, durasi video lebih lama dari Sora
Artikel ini mengusulkan pengenalan kerangka Planning at Inference yang menggunakan pencarian pohon Monte Carlo multi-akar selama tahap inferensi, memandang pembuatan video panjang sebagai masalah pengambilan keputusan berurutan, melalui peninjauan ke depan dan propagasi balik hadiah untuk mengevaluasi berbagai fragmen, secara signifikan mengurangi drift semantik dan akumulasi kesalahan dari pembuatan blok. Struktur pohon ganda meningkatkan efisiensi pencarian, dan dapat berfungsi sebagai solusi pengoptimalan inferensi yang sepenuhnya dapat dipasang dan dilepas, tanpa perlu penyesuaian ulang model dasar. Dalam eksperimen Cosmos-Predict2, dihasilkan video koheren berkualitas tinggi lebih dari 20 detik, melampaui greedy/search berbatang dan Best-of-N dalam metrik keberlanjutan objek, koherensi waktu, dan penyelarasan teks; dibandingkan dengan Sora dan Kling, durasi meningkat sebesar 18% dan 47%, kualitas gambar setara. Meskipun biaya komputasi tinggi, jika model dasar dan perangkat keras ditingkatkan, jalur ini berpotensi mendorong pembuatan video panjang menuju rekayasa.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan