Penggabungan total antara visual dan bahasa berarti ke depannya interaksi manusia dan mesin mungkin akan berubah menjadi dialog murni yang menggerakkan tampilan, paradigma interaksi akan mengalami perubahan besar

Lihat Asli
CoinNetwork
Berita dari Coinjie.com, AI Yi dalam podcast Latent Space menunjukkan bahwa model generasi video dan gambar saat ini bukanlah benar-benar memahami dunia fisik, model difusi pada dasarnya hanyalah renderer piksel tingkat rendah yang tidak memiliki kemampuan kognisi fisik. Mengambil model Cosmos dari Nvidia sebagai contoh, model difusi inti yang bertanggung jawab untuk rendering gambar hanya memiliki 7 miliar parameter, sementara pusat kecerdasan yang sebenarnya dipegang oleh model bahasa besar (LLM) yang berfungsi sebagai penulis ulang kata kunci. Kualitas logika dan kecocokan video akhir hampir sepenuhnya bergantung pada kualitas penulisan ulang kata kunci oleh model bahasa, bukan pada model difusi itu sendiri. Pemisahan visual dan bahasa ini menandakan bahwa interaksi manusia dan mesin akan mengalami rekonstruksi total.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan