Kemampuan model besar AI, dalam beberapa aspek sudah melampaui manusia biasa, seperti pemrograman dan matematika. Berita menyebutkan bahwa internal Anthropic hampir mencapai 100% pemrograman AI, Gemini Deep Think dari Google menyelesaikan 5 dari 6 soal dalam IMO 2025, mencapai tingkat medali emas.

Namun dalam penalaran visual, bahkan Gemini 3 Pro yang unggul dalam tingkatannya, hanya mencapai tingkat anak usia 3 tahun pada Benchmark BabyVision yang mengukur kemampuan penalaran visual dasar.

Mengapa model besar sangat kuat dalam pemrograman dan matematika, tetapi lemah dalam penalaran visual? Ini karena “cara berpikir” mereka memiliki batasan, model bahasa visual (VLM) perlu mengubah input visual menjadi bahasa terlebih dahulu, lalu melakukan penalaran berbasis teks, tetapi banyak tugas visual yang sama sekali tidak bisa dideskripsikan secara akurat dengan kata-kata, sehingga menyebabkan kemampuan penalaran visual model menjadi buruk.

Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bekerja sama dengan ahli AI senior dari Apple, Yinfei Yang, mendirikan perusahaan bernama Elorian AI. Tujuan mereka adalah meningkatkan kemampuan penalaran visual model dari tingkat “anak-anak” ke tingkat “dewasa”, dan membuat model mampu berpikir secara asli dalam “ruang visual”, untuk menantang AGI dunia fisik.

Elorian AI mendapatkan pendanaan awal sebesar 55 juta dolar dari Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan partisipasi dari 49 Palms dan para ilmuwan AI top seperti Jeff Dean.

Pelopor model multimodal, ingin agar model visual memiliki kemampuan penalaran

Sebagai orang keturunan Tionghoa, Andrew Dai lulusan sarjana komputer dari Cambridge dan doktor machine learning dari Edinburgh, selama studi doktoralnya sudah magang di Google, bergabung dengan Google pada 2012 dan bertahan selama 14 tahun hingga mendirikan perusahaan.

Sumber gambar: LinkedIn Andrew Dai

Tak lama setelah bergabung dengan Google, dia bersama Quoc V. Le menulis makalah pertama tentang pra-pelatihan model bahasa dan fine-tuning supervisi berjudul “Semi-supervised Sequence Learning”. Makalah ini menjadi dasar lahirnya GPT. Makalah lain yang juga penting adalah “Glam: Efficient scaling of language models with mixture-of-experts”, yang membuka jalan bagi arsitektur MoE yang kini menjadi arus utama.

Sumber gambar: Google

Selama di Google, dia juga terlibat secara mendalam dalam hampir semua pelatihan model besar, dari Plam hingga Gemini 1.5 dan Gemini 2.5. Atas arahan Jeff Dean, pada 2023 dia mulai memimpin bagian data Gemini (termasuk data sintetis), dan tim ini kemudian berkembang menjadi ratusan orang.

Sumber gambar: LinkedIn Yinfei Yang

Bersama Andrew Dai, yang juga merupakan pendiri, adalah Yinfei Yang. Ia pernah bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple untuk mengembangkan model multimodal.

Sumber gambar: arXiv

Penelitian utamanya yang terkenal adalah “Scaling up visual and vision-language representation learning with noisy text supervision”, yang mendorong perkembangan pembelajaran representasi multimodal.

Selain mereka, pendiri Elorian AI juga termasuk Seth Neel, yang pernah menjadi Asisten Profesor di Harvard dan merupakan pakar di bidang data dan AI.

Mengapa membahas makalah-makalah inovatif yang ditulis para pendiri Elorian AI? Karena yang mereka lakukan bukan sekadar optimisasi teknik, melainkan pembaruan paradigma dari arsitektur dasar, agar AI dari pemahaman berbasis teks beralih ke pemahaman berbasis visual.

Saat ini, meskipun model AI unggul dalam tugas berbasis teks, bahkan model multimodal terdepan sekalipun, mereka tetap gagal dalam tugas dasar penyelarasan visual (Visual grounding).

Misalnya, bagaimana memasang bagian tertentu secara presisi ke dalam perangkat mekanik agar berfungsi lebih akurat dan efisien? Tugas fisika ruang seperti ini sangat mudah bagi pelajar SD, tetapi sangat sulit bagi model multimodal saat ini.

Ini masih harus dicari dari ilmu biologi, di otak manusia, visual adalah dasar dari banyak proses berpikir. Kemampuan manusia dalam penalaran visual dan spasial jauh lebih lama berkembang daripada logika berbasis bahasa.

Contohnya, untuk mengajari orang melewati labirin, menggunakan deskripsi verbal bisa membingungkan, tetapi menggambar sketsa membuat orang langsung paham.

Bahkan seekor burung, meskipun tidak berbicara bahasa, mampu mengenali dan menalar ciri geografis melalui visual, dan melakukan migrasi jarak jauh secara global. Ini adalah sinyal kuat bahwa untuk benar-benar meningkatkan kemampuan penalaran mesin, besar kemungkinan evolusi yang benar adalah melalui visual.

Bayangkan jika sejak awal pembangunan model, kita mencoba menanamkan naluri visual biologis ini ke dalam AI, membangun model multimodal asli yang mampu “memahami dan memproses teks, gambar, video, dan audio secara bersamaan”, sehingga model memiliki kemampuan pemahaman visual. Andrew Dai dan timnya ingin membangun “indera gabungan” alami, mengajarkan mesin tidak hanya “melihat” dunia, tetapi juga “memahami” dunia.

Menurut Andrew Dai dan timnya, memahami secara mendalam “dunia fisik” adalah kunci untuk melompat ke generasi berikutnya dari kecerdasan mesin, dan akhirnya mencapai “Visual AGI (Visual AGI)”.

VLM yang penalarannya di belakang bukan jalan menuju penalaran visual yang benar

Dulu tidak sedikit tim yang ingin melakukan ini, bahkan Andrew Dai pernah bergabung dengan tim Gemini, yang sudah menjadi salah satu tim terdepan di bidang multimodal secara global. Tapi model multimodal tradisional tetap didominasi oleh VLM (visual language model), yang beroperasi berdasarkan dua langkah: pertama mengubah input visual menjadi bahasa, lalu melakukan penalaran berbasis teks (kadang juga memanfaatkan alat eksternal).

Namun, penalaran yang dilakukan secara berurutan ini memiliki batasan, satu sisi mudah menimbulkan ilusi model, di sisi lain banyak tugas visual yang sama sekali tidak bisa dideskripsikan secara akurat dengan kata-kata.

Selain itu, model generasi visual seperti NanoBanana sangat unggul dalam generasi multimodal, tetapi kemampuan generasi dan penalaran tidak setara. Mereka “berpikir” sebelum menghasilkan, dan proses ini tetap bergantung pada model bahasa, bukan penalaran asli.

Untuk mengembangkan model yang benar-benar mampu memahami kompleksitas ruang, struktur, dan hubungan dalam dunia visual, harus ada inovasi teknologi yang mendasar.

Lalu, bagaimana inovasinya? Beberapa pendiri Elorian AI yang berpengalaman di bidang multimodal, memilih untuk menggabungkan pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk penalaran multimodal. Mereka menolak pandangan tradisional yang memandang gambar sebagai input statis, dan melatih model untuk berinteraksi langsung dan memanipulasi representasi visual (Visual representations) untuk secara mandiri menganalisis struktur, hubungan, dan batasan fisik di dalamnya.

Tentu saja, data adalah faktor kunci lainnya, yang menentukan performa dan keberhasilan model ini.

Andrew Dai menyatakan bahwa mereka sangat memperhatikan kualitas data, rasio campuran data, sumber data, dan keberagaman data, serta melakukan inovasi di tingkat data, membangun kembali rantai penalaran di ruang visual, dan secara besar-besaran serta mendalam menggunakan data sintetis.

Gabungan usaha ini akan melahirkan sistem AI baru yang mampu melampaui sekadar “persepsi” visual, menuju “penalaran” visual tingkat tinggi.

Sistem AI ini bisa berupa model dasar penalaran visual: membangun model yang sangat umum, tetapi memiliki kemampuan khusus yang sangat baik dalam penalaran visual.

Karena merupakan model dasar yang umum, penggunaannya pun harus luas.

Pertama, dalam bidang robotika, model ini bisa menjadi pusat neural yang kuat, memberi robot kemampuan beroperasi secara mandiri di berbagai lingkungan asing.

Misalnya, dalam robotika, mengirim robot untuk menangani kerusakan darurat di lingkungan berbahaya. Ini membutuhkan robot membuat keputusan cepat dan akurat dalam sekejap. Jika robot tidak memiliki model dasar penalaran yang mendalam, orang tidak akan berani membiarkannya menekan tombol sembarangan atau mengoperasikan tuas. Tapi jika robot mampu menalar secara kuat, ia bisa berpikir: “Sebelum mengoperasikan panel ini, mungkin aku harus menarik tuas ini dulu, untuk mengaktifkan mekanisme pengaman.”

Selain itu, dalam manajemen bencana, model dengan penalaran visual bisa menganalisis citra satelit untuk memantau dan mencegah kebakaran hutan; dalam bidang teknik, mampu memahami gambar teknik dan diagram sistem yang kompleks. Kemampuan ini penting karena hukum kerja dunia fisik berbeda secara mendasar dari dunia kode murni; Anda tidak bisa hanya menulis beberapa baris kode untuk merancang sayap pesawat.

Namun, saat ini model dan kemampuan Elorian AI masih sebatas di atas kertas. Mereka berencana merilis model yang mencapai SOTA dalam penalaran visual pada 2026, untuk membuktikan apakah hasil mereka sesuai klaim.

Ketika AI benar-benar memiliki kemampuan “penalaran visual”, bagaimana ia akan mengubah dunia fisik?

Untuk membuat AI memahami dan mempengaruhi dunia fisik nyata, teknologi telah mengalami beberapa iterasi.

Dari era pengenalan citra CV tradisional, ke model generatif AI/ multimodal, hingga model dunia, pemahaman terhadap dunia fisik terus berkembang.

Dan model dasar penalaran visual sangat mungkin akan semakin maju, karena dengan mampu melakukan penalaran visual, AI dapat memahami dunia fisik secara lebih mendalam, dan mencapai tingkat kecerdasan mesin yang lebih tinggi.

Bayangkan, ketika model yang mampu memahami secara mendalam dan melakukan operasi presisi ini mendukung industri kecerdasan berbasis fisik dan industri perangkat keras AI, akan memperluas jangkauan aplikasi mereka secara besar. Misalnya, robot untuk produksi industri yang lebih andal, atau bidang perawatan medis; perangkat keras AI, terutama perangkat wearable, menjadi asisten pribadi yang lebih cerdas.

Namun, di dasar teknologi ini tetap data. Andrew Dai juga menyatakan bahwa kualitas data, rasio campuran data, sumber data, dan keberagaman data semuanya menentukan performa model.

Di bidang AI fisik, perusahaan China secara model maupun data lebih dekat ke posisi terdepan dunia dibanding model berbasis teks. Jika mereka mampu memanfaatkan data dan keunggulan dalam berbagai skenario aplikasi, mempercepat iterasi, maka baik dalam kecerdasan berbasis fisik maupun perangkat keras AI, mereka memiliki peluang besar untuk mencapai posisi terdepan dan bahkan melahirkan perusahaan kelas dunia.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
Gate13thAnniversaryLive
1.24M Popularitas
#
WCTCTradingChallengeShare8MUSDT
804.76K Popularitas
#
BitcoinBouncesBack
227.44K Popularitas
#
IsraelStrikesIranBTCPlunges
30.66K Popularitas
#
EthereumMemeSeasonReturns
2.01M Popularitas

Sematkan

peta situs

Menggunakan "penalaran visual" untuk menjelajahi dunia fisik AGI, ElorianAI mengumpulkan dana sebesar 55 juta dolar

Topik Trending

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Sematkan