Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Menggunakan "penalaran visual" untuk menjelajahi dunia fisik AGI, ElorianAI mengumpulkan dana sebesar 55 juta dolar
null
Wen | Komunitas Alpha
Kemampuan model besar AI, dalam beberapa aspek sudah melampaui manusia biasa, seperti pemrograman dan matematika. Berita menyebutkan bahwa internal Anthropic hampir mencapai 100% pemrograman AI, Gemini Deep Think dari Google menyelesaikan 5 dari 6 soal dalam IMO 2025, mencapai tingkat medali emas.
Namun dalam penalaran visual, bahkan Gemini 3 Pro yang unggul dalam tingkatannya, hanya mencapai tingkat anak usia 3 tahun pada Benchmark BabyVision yang mengukur kemampuan penalaran visual dasar.
Mengapa model besar sangat kuat dalam pemrograman dan matematika, tetapi lemah dalam penalaran visual? Ini karena “cara berpikir” mereka memiliki batasan, model bahasa visual (VLM) perlu mengubah input visual menjadi bahasa terlebih dahulu, lalu melakukan penalaran berbasis teks, tetapi banyak tugas visual yang sama sekali tidak bisa dideskripsikan secara akurat dengan kata-kata, sehingga menyebabkan kemampuan penalaran visual model menjadi buruk.
Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bekerja sama dengan ahli AI senior dari Apple, Yinfei Yang, mendirikan perusahaan bernama Elorian AI. Tujuan mereka adalah meningkatkan kemampuan penalaran visual model dari tingkat “anak-anak” ke tingkat “dewasa”, dan membuat model mampu berpikir secara asli dalam “ruang visual”, untuk menantang AGI dunia fisik.
Elorian AI mendapatkan pendanaan awal sebesar 55 juta dolar dari Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan partisipasi dari 49 Palms dan para ilmuwan AI top seperti Jeff Dean.
Pelopor model multimodal, ingin agar model visual memiliki kemampuan penalaran
Sebagai orang keturunan Tionghoa, Andrew Dai lulusan sarjana komputer dari Cambridge dan doktor machine learning dari Edinburgh, selama studi doktoralnya sudah magang di Google, bergabung dengan Google pada 2012 dan bertahan selama 14 tahun hingga mendirikan perusahaan.
Sumber gambar: LinkedIn Andrew Dai
Tak lama setelah bergabung dengan Google, dia bersama Quoc V. Le menulis makalah pertama tentang pra-pelatihan model bahasa dan fine-tuning supervisi berjudul “Semi-supervised Sequence Learning”. Makalah ini menjadi dasar lahirnya GPT. Makalah lain yang juga penting adalah “Glam: Efficient scaling of language models with mixture-of-experts”, yang membuka jalan bagi arsitektur MoE yang kini menjadi arus utama.
Sumber gambar: Google
Selama di Google, dia juga terlibat secara mendalam dalam hampir semua pelatihan model besar, dari Plam hingga Gemini 1.5 dan Gemini 2.5. Atas arahan Jeff Dean, pada 2023 dia mulai memimpin bagian data Gemini (termasuk data sintetis), dan tim ini kemudian berkembang menjadi ratusan orang.
Sumber gambar: LinkedIn Yinfei Yang
Bersama Andrew Dai, yang juga merupakan pendiri, adalah Yinfei Yang. Ia pernah bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple untuk mengembangkan model multimodal.
Sumber gambar: arXiv
Penelitian utamanya yang terkenal adalah “Scaling up visual and vision-language representation learning with noisy text supervision”, yang mendorong perkembangan pembelajaran representasi multimodal.
Selain mereka, pendiri Elorian AI juga termasuk Seth Neel, yang pernah menjadi Asisten Profesor di Harvard dan merupakan pakar di bidang data dan AI.
Mengapa membahas makalah-makalah inovatif yang ditulis para pendiri Elorian AI? Karena yang mereka lakukan bukan sekadar optimisasi teknik, melainkan pembaruan paradigma dari arsitektur dasar, agar AI dari pemahaman berbasis teks beralih ke pemahaman berbasis visual.
Saat ini, meskipun model AI unggul dalam tugas berbasis teks, bahkan model multimodal terdepan sekalipun, mereka tetap gagal dalam tugas dasar penyelarasan visual (Visual grounding).
Misalnya, bagaimana memasang bagian tertentu secara presisi ke dalam perangkat mekanik agar berfungsi lebih akurat dan efisien? Tugas fisika ruang seperti ini sangat mudah bagi pelajar SD, tetapi sangat sulit bagi model multimodal saat ini.
Ini masih harus dicari dari ilmu biologi, di otak manusia, visual adalah dasar dari banyak proses berpikir. Kemampuan manusia dalam penalaran visual dan spasial jauh lebih lama berkembang daripada logika berbasis bahasa.
Contohnya, untuk mengajari orang melewati labirin, menggunakan deskripsi verbal bisa membingungkan, tetapi menggambar sketsa membuat orang langsung paham.
Bahkan seekor burung, meskipun tidak berbicara bahasa, mampu mengenali dan menalar ciri geografis melalui visual, dan melakukan migrasi jarak jauh secara global. Ini adalah sinyal kuat bahwa untuk benar-benar meningkatkan kemampuan penalaran mesin, besar kemungkinan evolusi yang benar adalah melalui visual.
Bayangkan jika sejak awal pembangunan model, kita mencoba menanamkan naluri visual biologis ini ke dalam AI, membangun model multimodal asli yang mampu “memahami dan memproses teks, gambar, video, dan audio secara bersamaan”, sehingga model memiliki kemampuan pemahaman visual. Andrew Dai dan timnya ingin membangun “indera gabungan” alami, mengajarkan mesin tidak hanya “melihat” dunia, tetapi juga “memahami” dunia.
Menurut Andrew Dai dan timnya, memahami secara mendalam “dunia fisik” adalah kunci untuk melompat ke generasi berikutnya dari kecerdasan mesin, dan akhirnya mencapai “Visual AGI (Visual AGI)”.
VLM yang penalarannya di belakang bukan jalan menuju penalaran visual yang benar
Dulu tidak sedikit tim yang ingin melakukan ini, bahkan Andrew Dai pernah bergabung dengan tim Gemini, yang sudah menjadi salah satu tim terdepan di bidang multimodal secara global. Tapi model multimodal tradisional tetap didominasi oleh VLM (visual language model), yang beroperasi berdasarkan dua langkah: pertama mengubah input visual menjadi bahasa, lalu melakukan penalaran berbasis teks (kadang juga memanfaatkan alat eksternal).
Namun, penalaran yang dilakukan secara berurutan ini memiliki batasan, satu sisi mudah menimbulkan ilusi model, di sisi lain banyak tugas visual yang sama sekali tidak bisa dideskripsikan secara akurat dengan kata-kata.
Selain itu, model generasi visual seperti NanoBanana sangat unggul dalam generasi multimodal, tetapi kemampuan generasi dan penalaran tidak setara. Mereka “berpikir” sebelum menghasilkan, dan proses ini tetap bergantung pada model bahasa, bukan penalaran asli.
Untuk mengembangkan model yang benar-benar mampu memahami kompleksitas ruang, struktur, dan hubungan dalam dunia visual, harus ada inovasi teknologi yang mendasar.
Lalu, bagaimana inovasinya? Beberapa pendiri Elorian AI yang berpengalaman di bidang multimodal, memilih untuk menggabungkan pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk penalaran multimodal. Mereka menolak pandangan tradisional yang memandang gambar sebagai input statis, dan melatih model untuk berinteraksi langsung dan memanipulasi representasi visual (Visual representations) untuk secara mandiri menganalisis struktur, hubungan, dan batasan fisik di dalamnya.
Tentu saja, data adalah faktor kunci lainnya, yang menentukan performa dan keberhasilan model ini.
Andrew Dai menyatakan bahwa mereka sangat memperhatikan kualitas data, rasio campuran data, sumber data, dan keberagaman data, serta melakukan inovasi di tingkat data, membangun kembali rantai penalaran di ruang visual, dan secara besar-besaran serta mendalam menggunakan data sintetis.
Gabungan usaha ini akan melahirkan sistem AI baru yang mampu melampaui sekadar “persepsi” visual, menuju “penalaran” visual tingkat tinggi.
Sistem AI ini bisa berupa model dasar penalaran visual: membangun model yang sangat umum, tetapi memiliki kemampuan khusus yang sangat baik dalam penalaran visual.
Karena merupakan model dasar yang umum, penggunaannya pun harus luas.
Pertama, dalam bidang robotika, model ini bisa menjadi pusat neural yang kuat, memberi robot kemampuan beroperasi secara mandiri di berbagai lingkungan asing.
Misalnya, dalam robotika, mengirim robot untuk menangani kerusakan darurat di lingkungan berbahaya. Ini membutuhkan robot membuat keputusan cepat dan akurat dalam sekejap. Jika robot tidak memiliki model dasar penalaran yang mendalam, orang tidak akan berani membiarkannya menekan tombol sembarangan atau mengoperasikan tuas. Tapi jika robot mampu menalar secara kuat, ia bisa berpikir: “Sebelum mengoperasikan panel ini, mungkin aku harus menarik tuas ini dulu, untuk mengaktifkan mekanisme pengaman.”
Selain itu, dalam manajemen bencana, model dengan penalaran visual bisa menganalisis citra satelit untuk memantau dan mencegah kebakaran hutan; dalam bidang teknik, mampu memahami gambar teknik dan diagram sistem yang kompleks. Kemampuan ini penting karena hukum kerja dunia fisik berbeda secara mendasar dari dunia kode murni; Anda tidak bisa hanya menulis beberapa baris kode untuk merancang sayap pesawat.
Namun, saat ini model dan kemampuan Elorian AI masih sebatas di atas kertas. Mereka berencana merilis model yang mencapai SOTA dalam penalaran visual pada 2026, untuk membuktikan apakah hasil mereka sesuai klaim.
Ketika AI benar-benar memiliki kemampuan “penalaran visual”, bagaimana ia akan mengubah dunia fisik?
Untuk membuat AI memahami dan mempengaruhi dunia fisik nyata, teknologi telah mengalami beberapa iterasi.
Dari era pengenalan citra CV tradisional, ke model generatif AI/ multimodal, hingga model dunia, pemahaman terhadap dunia fisik terus berkembang.
Dan model dasar penalaran visual sangat mungkin akan semakin maju, karena dengan mampu melakukan penalaran visual, AI dapat memahami dunia fisik secara lebih mendalam, dan mencapai tingkat kecerdasan mesin yang lebih tinggi.
Bayangkan, ketika model yang mampu memahami secara mendalam dan melakukan operasi presisi ini mendukung industri kecerdasan berbasis fisik dan industri perangkat keras AI, akan memperluas jangkauan aplikasi mereka secara besar. Misalnya, robot untuk produksi industri yang lebih andal, atau bidang perawatan medis; perangkat keras AI, terutama perangkat wearable, menjadi asisten pribadi yang lebih cerdas.
Namun, di dasar teknologi ini tetap data. Andrew Dai juga menyatakan bahwa kualitas data, rasio campuran data, sumber data, dan keberagaman data semuanya menentukan performa model.
Di bidang AI fisik, perusahaan China secara model maupun data lebih dekat ke posisi terdepan dunia dibanding model berbasis teks. Jika mereka mampu memanfaatkan data dan keunggulan dalam berbagai skenario aplikasi, mempercepat iterasi, maka baik dalam kecerdasan berbasis fisik maupun perangkat keras AI, mereka memiliki peluang besar untuk mencapai posisi terdepan dan bahkan melahirkan perusahaan kelas dunia.