Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Dengan tarikan dan tarikan, mawar menjadi hidup! Google mengusulkan dinamika gambar generatif, dan semuanya akan hidup mulai sekarang
Sumber asli: Xinzhiyuan
Lihat, dengan tarikan lembut, mawar itu mulai bergerak.
Akhirnya, hal ini diterapkan, dan bahkan putaran video tanpa batas dapat dihasilkan dengan berinteraksi dengan satu gambar.
Di masa depan, imajinasi seniman tidak lagi dibatasi oleh kerangka tradisional, dan segalanya akan mungkin terjadi dalam ruang gambar yang dinamis ini.
Semua yang ada di gambar menjadi hidup
Pergerakan segala sesuatu di dunia bersifat multimoda.
Pakaian yang tergantung di halaman bergoyang maju mundur mengikuti angin.
Dengan mengambil sebuah foto, peneliti mungkin bisa membayangkan bagaimana pergerakannya saat foto itu diambil.
Mengingat perkembangan model generatif saat ini, khususnya model difusi, dimungkinkan untuk memodelkan distribusi yang sangat kaya dan kompleks.
Hal ini memungkinkan banyak penerapan yang sebelumnya tidak mungkin dilakukan, seperti menghasilkan gambar realistis yang sewenang-wenang dari teks. Selain berguna pada bidang gambar, model difusi juga dapat digunakan untuk memodelkan bidang video.
Model dilatih berdasarkan lintasan gerak yang secara otomatis diekstraksi dari sejumlah besar rangkaian video nyata.
Berdasarkan gambar masukan, model yang dilatih memprediksi “tekstur gerakan stokastik saraf”: sekumpulan koefisien gerakan dasar yang menggambarkan lintasan masa depan setiap piksel.
Kemudian, model difusi digunakan untuk memprediksi “tekstur gerak stokastik saraf.” Model ini hanya menghasilkan koefisien untuk satu frekuensi pada satu waktu, namun mengoordinasikan prediksi ini pada pita frekuensi yang berbeda.
Tekstur ruang frekuensi yang dihasilkan dapat diubah menjadi lintasan gerak piksel jarak jauh yang padat yang dapat digunakan untuk mensintesis bingkai masa depan, mengubah gambar statis menjadi animasi realistis.
Pengenalan Teknologi
Berdasarkan satu gambar
Sistem yang dibangun oleh peneliti terdiri dari dua modul: “modul prediksi tindakan” dan “modul rendering berbasis gambar”.
Pertama, para peneliti menggunakan “model difusi laten” sebagai gambar masukan
Pada langkah kedua, transformasi Fourier diskrit terbalik digunakan untuk mengubah prediksi tekstur gerak acak menjadi serangkaian bidang perpindahan gerak.
Bidang perpindahan gerak ini akan digunakan untuk menentukan posisi setiap piksel masukan pada setiap langkah waktu mendatang.
Dengan bidang gerak yang diprediksi ini, modul rendering para peneliti menggunakan teknik rendering berbasis gambar untuk mengambil fitur pengkodean dari gambar masukan RGB dan menerjemahkan fitur yang dipilih ini ke dalam bingkai keluaran melalui jaringan sintesis gambar.
Tekstur Gerakan Acak Neural
tekstur gerak
Dalam penelitian sebelumnya, tekstur gerak mendefinisikan serangkaian peta perpindahan 2D yang bervariasi terhadap waktu.
Untuk menghasilkan kerangka masa depan pada waktu t, peta perpindahan yang sesuai dapat digunakan, dari
Seperti yang telah ditunjukkan sebelumnya dalam penelitian grafik komputer, banyak gerakan alami, terutama gerakan osilasi, dapat digambarkan sebagai superposisi dari sekumpulan kecil osilator harmonik, yang diwakili oleh frekuensi, amplitudo, dan fase yang berbeda.
Salah satu cara untuk memperkenalkan keacakan dalam gerakan adalah dengan mengintegrasikan medan kebisingan. Namun seperti yang ditunjukkan oleh penelitian sebelumnya, menambahkan noise acak secara langsung ke domain spasial dan temporal dari bidang gerak yang diprediksi sering kali menghasilkan animasi yang tidak realistis atau tidak stabil.
Lebih lanjut, dengan menggunakan tekstur gerak dalam domain temporal yang ditentukan di atas berarti bidang perpindahan T 2D perlu diprediksi untuk menghasilkan segmen video yang berisi bingkai T. Untuk menghindari prediksi representasi keluaran yang begitu besar, banyak metode animasi sebelumnya menghasilkan bingkai video secara otomatis atau secara independen memprediksi setiap bingkai keluaran di masa mendatang melalui penyematan temporal tambahan.
Namun, tidak ada strategi yang menjamin bahwa frame video yang dihasilkan konsisten secara temporal dalam jangka panjang, dan keduanya mungkin menghasilkan video yang menyimpang atau menyimpang dari waktu ke waktu.
Untuk mengatasi masalah di atas, peneliti merepresentasikan tekstur gerakan per piksel dari adegan input dalam domain frekuensi (yaitu, lintasan gerakan lengkap semua piksel) dan merumuskan masalah prediksi gerakan sebagai konversi gambar-ke-gambar multi-modal. tugas.
Para peneliti menggunakan model difusi laten (LDM) untuk menghasilkan tekstur gerak acak yang terdiri dari spektogram gerak 2D saluran 4K, dimana K << T adalah jumlah frekuensi yang dimodelkan, dan pada setiap frekuensi, peneliti memerlukan empat skalar untuk mewakili koefisien Fourier kompleks dalam dimensi x dan y.
Gambar di bawah menunjukkan tekstur gerakan acak saraf ini.
Untuk menguji hipotesis ini, para peneliti menghitung spektrum kekuatan rata-rata gerakan yang diekstraksi dari 1.000 sampel klip video nyata berdurasi 5 detik yang diambil secara acak. Seperti yang ditunjukkan pada gambar kiri di bawah, daya terutama terkonsentrasi pada komponen frekuensi rendah.
Dalam praktiknya, para peneliti menemukan bahwa koefisien Fourier K = 16 pertama cukup untuk mereproduksi gerakan alami asli dalam serangkaian video dan adegan nyata.
Gunakan model difusi untuk memprediksi tindakan
Para peneliti memilih model difusi laten (LDM) sebagai inti modul prediksi tindakan peneliti karena LDM lebih efisien secara komputasi dibandingkan model difusi ruang piksel dengan tetap menjaga kualitas pembangkitan.
LDM standar terutama mencakup dua modul:
Autoencoder variasional (VAE) mengompresi gambar masukan ke dalam ruang laten melalui encoder z = E(I), dan kemudian merekonstruksi masukan dari fitur laten melalui decoder I = D(z).
Model difusi berdasarkan U-Net, yang belajar menolak fitur laten secara berulang mulai dari derau acak Gaussian.
Pelatihan para peneliti diterapkan bukan untuk memasukkan gambar tetapi pada tekstur tindakan acak dari rangkaian video nyata, yang dikodekan dan kemudian disebarkan n langkah dalam jadwal varians yang telah ditentukan untuk menghasilkan variabel laten yang berisik zn.
Normalisasi adaptif frekuensi
Para peneliti mengamati masalah di mana tekstur tindakan acak memiliki sifat distribusi frekuensi tertentu. Seperti yang ditunjukkan pada panel kiri gambar di atas, amplitudo tekstur gerak para peneliti berkisar antara 0 hingga 100, dan berkurang secara eksponensial seiring dengan meningkatnya frekuensi.
Karena model difusi memerlukan nilai keluaran antara 0 dan 1 untuk pelatihan dan denoising yang stabil, peneliti harus menormalkan koefisien S yang diekstraksi dari video nyata sebelum melatihnya.
Jika peneliti menskalakan besaran koefisien S menjadi [0,1] berdasarkan lebar dan tinggi gambar, maka hampir semua koefisien akan mendekati nol pada frekuensi yang lebih tinggi, seperti yang ditunjukkan pada gambar di atas (kanan).
Model yang dilatih berdasarkan data tersebut mungkin menghasilkan tindakan yang tidak akurat karena selama inferensi, bahkan kesalahan prediksi yang kecil pun dapat menyebabkan kesalahan relatif yang besar setelah denormalisasi, ketika S yang dinormalisasi Besarnya koefisien sangat mendekati nol.
Untuk mengatasi masalah ini, para peneliti menggunakan teknik normalisasi adaptif frekuensi yang sederhana namun efektif. Secara khusus, para peneliti pertama-tama menormalkan koefisien Fourier pada setiap frekuensi secara independen berdasarkan statistik yang dihitung dari set pelatihan.
Penyangkalan terkoordinasi frekuensi
Cara mudah untuk memprediksi tekstur aksi acak S dengan pita frekuensi K adalah dengan mengeluarkan tensor dengan saluran 4K dari U-Net difusi standar.
Namun, melatih model untuk menghasilkan saluran dalam jumlah besar sering kali menghasilkan keluaran yang terlalu lancar dan tidak akurat.
Pendekatan lain adalah dengan memprediksi spektogram aksi pada masing-masing frekuensi secara independen dengan memasukkan penyematan frekuensi tambahan ke dalam LDM, namun hal ini menyebabkan prediksi yang tidak relevan dalam domain frekuensi sehingga tindakan menjadi tidak realistis.
Oleh karena itu, para peneliti mengusulkan strategi denoising terkoordinasi frekuensi yang ditunjukkan pada gambar di bawah. Secara khusus, dengan memberikan gambar masukan I0, pertama-tama kami melatih LDM untuk memprediksi peta tekstur tindakan acak dengan empat saluran untuk setiap frekuensi individu, di mana kami memasukkan penyematan frekuensi tambahan ke dalam LDM bersama dengan penyematan langkah waktu ke dalam jaringan.
Para peneliti selanjutnya menjelaskan cara merender bingkai ˆIt di waktu mendatang t menggunakan tekstur gerakan acak S yang diprediksi untuk gambar masukan tertentu I0. Pertama, peneliti menggunakan FFT (Fast Fourier Transform) domain waktu terbalik untuk menghitung bidang lintasan gerak pada setiap titik piksel p.
Kami bersama-sama melatih ekstraktor fitur dan jaringan sintesis dengan bingkai awal dan target yang diambil sampelnya secara acak dari video nyata, di mana kami menggunakan perkiraan bidang aliran dari I0 ke It untuk membelokkan fitur yang dikodekan dari I0 dan menggunakan kehilangan persepsi VGG untuk memprediksi ˆIa melakukan pengawasan .
Aplikasi yang diperluas lebih lanjut
Para peneliti selanjutnya mendemonstrasikan penerapan penambahan efek dinamis pada satu gambar statis menggunakan representasi gerak dan proses animasi yang diusulkan oleh para peneliti.
Gambar ke video
Sistem peneliti menganimasikan satu gambar statis dengan terlebih dahulu memprediksi tekstur gerakan acak saraf dari gambar masukan, dan dengan menerapkan modul rendering berbasis gambar milik peneliti ke bidang perpindahan gerakan yang berasal dari tekstur gerakan acak.
Karena kami memodelkan gerakan adegan secara eksplisit, hal ini memungkinkan kami menghasilkan video gerakan lambat dengan menginterpolasi bidang perpindahan gerakan secara linier dan memperbesar (atau memperkecil) gerakan animasi dengan menyesuaikan amplitudo koefisien tekstur gerakan acak yang diprediksi.
Lingkaran Mulus
Terkadang berguna untuk menghasilkan video dengan gerakan perulangan yang mulus, artinya tidak ada diskontinuitas dalam tampilan atau gerakan antara awal dan akhir video.
Sayangnya, sulit untuk menemukan kumpulan pelatihan besar yang berisi video perulangan yang mulus. Oleh karena itu, para peneliti merancang metode menggunakan model difusi gerak para peneliti, yang dilatih pada klip video non-perulangan biasa, untuk menghasilkan video perulangan yang mulus.
Terinspirasi oleh penelitian terbaru tentang pengeditan gambar terpandu, pendekatan para peneliti adalah teknik panduan gerak yang menggunakan batasan loop eksplisit untuk memandu proses pengambilan sampel penolakan gerakan.
Secara khusus, selama setiap langkah penolakan berulang pada fase inferensi, para peneliti menyertakan sinyal panduan gerakan tambahan di samping panduan bebas pengklasifikasi standar, di mana kami memaksa setiap piksel berada pada posisi bingkai awal dan akhir serta Kecepatannya semirip mungkin.
Hasilkan animasi interaktif dari satu gambar
Spektrum gerak spasial gambar dalam video pengamatan suatu objek yang berosilasi mendekati dasar modal getaran fisik objek tersebut.
Bentuk modal menangkap dinamika osilasi suatu objek pada frekuensi yang berbeda, sehingga proyeksi ruang gambar dari pola getaran suatu objek dapat digunakan untuk memodelkan respons objek terhadap gaya yang ditentukan pengguna seperti sodokan atau tarikan.
Oleh karena itu, peneliti menggunakan teknik analisis modal yang telah dipelajari sebelumnya, yang mengasumsikan bahwa gerak suatu benda dapat dijelaskan melalui superposisi sekumpulan resonator.
Hal ini memungkinkan para peneliti untuk menulis bidang perpindahan gerak ruang gambar dua dimensi dari respon fisik benda sebagai jumlah tertimbang dari koefisien spektrum Fourier dan koordinat modal kompleks dari setiap langkah waktu simulasi t, dan waktu t.
Evaluasi Eksperimental
Tim peneliti melakukan perbandingan kuantitatif antara metode terbaru dan metode dasar pada serangkaian pengujian klip video yang tidak terlihat.
Ditemukan bahwa pendekatan Google secara signifikan mengungguli dasar-dasar animasi gambar tunggal sebelumnya dalam kualitas sintesis gambar dan video.
Secara khusus, jarak FVD dan DT-FVD Google jauh lebih rendah, yang menunjukkan bahwa video yang dihasilkan dengan metode ini lebih realistis dan koheren secara temporal.
Karena Google menggunakan representasi tekstur gerakan stokastik global, pendekatannya menghasilkan video yang lebih konsisten dari waktu ke waktu dan tidak menyimpang atau menurun seiring waktu.
Pertama, potongan spatiotemporal Xt dari video yang dihasilkan ditampilkan, seperti yang ditunjukkan pada Gambar 7.
Dinamika video yang dihasilkan Google lebih mirip dengan pola gerakan yang diamati pada video referensi nyata (kolom kedua). Garis dasar seperti I2V dan MCVD acak tidak dapat mensimulasikan penampakan dan pergerakan secara realistis seiring waktu.
Metode yang dihasilkan Google menghasilkan bingkai yang menunjukkan lebih sedikit artefak dan distorsi dibandingkan metode lain, dan bidang gerak 2D terkait paling mirip dengan bidang perpindahan referensi yang diperkirakan dari video nyata terkait.
tentang Penulis
Zhengqi Li
Beliau adalah penerima Penghargaan Honorable Mention Kertas Terbaik CVPR 2019, Beasiswa Google PhD 2020, Adobe Research Fellowship 2020, Penghargaan 100 Bintang Baru China Top 100 Kecerdasan Buatan Global Baidu 2021, dan Penghargaan Kehormatan Kertas Terbaik CVPR 2023.
Referensi: