Menguji 'Terpintar di Dunia' Grok3: Apakah benar-benar merupakan akhir dari efek margin model?

Pada tanggal 18 Februari, waktu Beijing, Musk dan tim xAI secara resmi meluncurkan versi terbaru Grok, Grok3, dalam siaran langsung.

Sebelum konferensi pers kali ini, berkat berbagai informasi terkait yang diberikan, ditambah dengan promosi yang tak kenal lelah 24/7 oleh Musk sendiri, harapan global terhadap Grok3 telah mencapai level tertinggi yang pernah ada. Sebuah minggu yang lalu, saat komentar langsung Musk tentang DeepSeek R1, dia dengan penuh keyakinan menyatakan bahwa 'XAI akan segera meluncurkan model AI yang lebih unggul'.

Dari data yang ditampilkan di lapangan, Grok3 telah melampaui semua model utama saat ini dalam uji tes dasar matematika, ilmu pengetahuan, dan pemrograman, Elon Musk bahkan menyatakan bahwa Grok 3 akan digunakan untuk komputasi misi ke Mars SpaceX di masa depan, dan memprediksi 'terobosan tingkat Nobel akan tercapai dalam tiga tahun'.

Namun saat ini semua itu hanyalah omong kosong dari Musk. Setelah rilis, saya menguji versi Beta terbaru GROK3 dan mengajukan pertanyaan klasik yang digunakan untuk menguji model besar: 'Mana yang lebih besar, 9.11 atau 9.9?'

Sayangnya, tanpa menambahkan kata sifat atau anotasi apa pun, Grok3 yang disebut sebagai yang paling pintar saat ini, masih belum bisa menjawab pertanyaan ini dengan benar.

GROK3 tidak secara akurat mengidentifikasi makna masalah ini | Sumber gambar: Geek Park

Setelah tes ini dirilis, dengan cepat menarik perhatian banyak teman dalam waktu singkat, dan kebetulan, ada banyak pertanyaan serupa di luar negeri, seperti "mana dari dua bola di Menara Miring Pisa yang jatuh lebih dulu", yang Grok3 juga ditemukan tidak dapat menangani. Oleh karena itu, secara bercanda disebut "jenius yang tidak mau menjawab pertanyaan sederhana".

Grok3 mengalami banyak masalah umum dalam pengujian praktis | Sumber gambar: X

Selain pengujian sukarela oleh pengguna, banyak pengetahuan dasar tentang Grok3 muncul di acara langsung xAI. Dalam siaran langsung konferensi pers xAI, Musk mendemokan penggunaan Grok3 untuk menganalisis kelas dan efek peningkatan yang dia klaim sering dimainkan dalam Path of Exile 2 (. Namun, sebagian besar jawaban yang disediakan oleh Grok3 sebenarnya salah. Musk dalam siaran langsung tidak menyadari masalah yang jelas ini.

GROK3 juga sering memberikan data yang salah dalam siaran langsung | Sumber gambar: X

Oleh karena itu, kesalahan ini bukan hanya menjadi bukti nyata bagi para pengguna internet luar negeri untuk sekali lagi mencemooh Musk bermain game 'cari booster', tetapi juga sekali lagi menimbulkan keraguan besar terhadap keandalan Grok3 dalam aplikasi praktis.

Bagi 'genius' semacam ini, terlepas dari seberapa besar kemampuannya, kehandalan dalam aplikasi yang sangat kompleks seperti misi eksplorasi Mars di masa depan akan dipertanyakan.

Saad ini, banyak yang telah memperoleh kualifikasi uji coba Grok3 beberapa minggu yang lalu, serta pengguna model yang baru saja menggunakannya beberapa jam kemarin, semuanya menuju pada kesimpulan yang sama tentang kinerja Grok3 saat ini:

"Grok3 adalah bagus, tetapi itu tidak lebih baik dari R1 atau o1-Pro"

"Grok3 bagus, tetapi tidak lebih baik dari R1 atau o1-Pro" | Sumber gambar: X

Grok3 telah mencapai posisi 'unbeatable' dalam PPT resmi peluncuran, dalam arena kompetisi model besar Chatbot Arena, namun sebenarnya juga menggunakan sedikit trik visualisasi: sumbu vertikal daftar hanya menampilkan peringkat dalam rentang 1400-1300 poin, membuat perbedaan hasil uji 1% menjadi sangat jelas dalam presentasi PPT ini.

Efek 'unbeatable' dalam PPT resmi | Sumber gambar: X

Namun, hasil skor berjalan model sebenarnya, Grok3 sebenarnya hanya memiliki selisih kurang dari 1-2% dari DeepSeek R1 dan GPT4.0: ini sesuai dengan banyak pengguna yang tidak memiliki perbedaan yang jelas dalam pengujian praktis.

Grok3 yang sebenarnya hanya lebih tinggi 1%-2% dari yang kemudian | Sumber gambar: X

Selain itu, meskipun secara skor, Grok3 melampaui semua model yang saat ini diuji secara terbuka, tetapi hal ini tidak banyak diterima oleh banyak orang: pada dasarnya xAI telah 'mencetak gol' dalam daftar ini sejak zaman Grok2, tetapi dengan penurunan skor yang signifikan karena penurunan bobot gaya jawaban, oleh karena itu sering dikritik sebagai 'skor tinggi namun kemampuan rendah' oleh para profesional industri.

Baik itu 'mencetak gol' dalam daftar peringkat maupun 'tip kecil' dalam desain gambar, semuanya menunjukkan obsesi XAI dan Musk sendiri terhadap 'keunggulan jauh' dari kemampuan model ini.

Namun demi kesenjangan ini, biaya yang harus dibayar oleh Musk dapat dikatakan sangat tinggi: dalam konferensi pers, Musk dengan nada hampir memamerkan mengatakan bahwa ia menggunakan hampir 200.000 lembar H100 (Musk menyatakan dalam siaran langsung bahwa ia menggunakan 'lebih dari 100.000' lembar ) untuk melatih Grok3, dengan total jam pelatihan mencapai dua miliar jam. Hal ini membuat sebagian orang merasa bahwa ini adalah berita bagus besar bagi industri GPU, dan menganggap bahwa getaran yang DeepSeek bawa ke industri ini adalah 'bodoh').

Banyak orang percaya bahwa penumpukan daya komputasi akan menjadi masa depan pelatihan model | Sumber gambar: X

Namun sebenarnya, ada pengguna internet yang membandingkan DeepSeek V3 yang dilatih selama dua bulan dengan 2000 lembar H800, menghitung bahwa konsumsi daya komputasi sebenarnya dari Grok3 adalah 263 kali lipat dari V3. Perbedaan antara DeekSeek V3 dan Grok3 dengan skor 1402 di papan peringkat model besar bahkan kurang dari 100 poin saja.

Setelah data ini dirilis, banyak orang dengan cepat menyadari bahwa di balik kemenangan Grok3 sebagai 'terkuat di dunia', sebenarnya terdapat logika bahwa semakin besar modelnya, semakin kuat kinerjanya, telah muncul efek margin yang jelas.

Meskipun Grok2 yang 'bernilai tinggi tetapi rendah dalam kemampuan', memiliki data first-party berkualitas tinggi dalam jumlah besar di platform X (Twitter) sebagai dukungan. Dan dalam pelatihan Grok3, xAI juga akan menghadapi 'langit-langit' yang sama yang saat ini dihadapi oleh OpenAI - kekurangan data pelatihan berkualitas tinggi yang membuat efek margin kemampuan model terungkap dengan cepat.

Bagi orang yang pertama kali menyadari dan memahami sepenuhnya fakta-fakta ini pasti adalah tim pengembang Grok3 dan Musk, oleh karena itu Musk terus-menerus menyatakan di media sosial bahwa versi yang pengguna alami saat ini hanyalah versi uji coba dan versi lengkap akan diluncurkan dalam beberapa bulan ke depan. Musk bahkan berperan sebagai manajer produk Grok3, dan mengusulkan pengguna untuk memberikan umpan balik langsung di kolom komentar tentang berbagai masalah yang mereka hadapi saat menggunakan produk.

Dia mungkin adalah manajer produk dengan jumlah penggemar terbanyak di dunia ini | Sumber gambar: X

Namun dalam waktu kurang dari sehari, performa Grok3 tanpa ragu telah memberikan peringatan kepada para pengikut yang berharap dapat melatih model besar yang lebih kuat melalui 'latihan keras' bahwa menurut perkiraan informasi publik Microsoft, volume parameter OpenAI GPT4 adalah 1,8 triliun parameter, lebih dari 10 kali lipat dari GPT3, dan diperkirakan volume parameter GPT4.5 yang lebih besar lagi.

Volume of model parameters soaring, training costs are also skyrocketing | Image source: X

Dengan Grok3 di depan, GPT4.5 dan lebih banyak yang ingin terus 'membakar uang' dengan ukuran parameter untuk mendapatkan kinerja model yang lebih baik, semua peserta harus mempertimbangkan langit-langit yang hampir ada di depan mata, dan bagaimana cara melewatinya.

Pada saat ini, mantan Kepala Ilmuwan OpenAI, Ilya Sutskever, pernah mengatakan pada bulan Desember tahun lalu, "pelatihan pra-pelatihan yang kita kenal akan berakhir", hal ini kembali diingatkan oleh orang dan mencoba untuk menemukan jalan keluar sebenarnya dari pelatihan model besar.

Pandangan Ilya telah memberikan peringatan bagi industri ini | Sumber gambar: X

Pada saat itu, Ilya dengan tepat memprediksi bahwa data baru yang tersedia akan segera habis, model akan sulit untuk terus meningkatkan kinerjanya melalui akuisisi data, dan situasi ini diibaratkan sebagai konsumsi bahan bakar fosil, menyatakan bahwa "seperti halnya minyak adalah sumber daya terbatas, konten yang dihasilkan manusia di internet juga terbatas".

Dalam ramalan Sutskever, generasi berikutnya dari model-model pasca-pelatihan akan memiliki 'otonomi yang sebenarnya'. Mereka juga akan memiliki kemampuan penalaran yang 'mirip dengan otak manusia'.

Berbeda dengan konten yang saat ini menjadi andalan untuk model pra-pelatihan (berdasarkan konten yang telah dipelajari oleh model sebelumnya), sistem AI di masa depan akan dapat belajar secara bertahap dan membangun metodologi untuk menyelesaikan masalah dengan cara yang mirip dengan 'pemikiran' otak manusia.

Manusia dapat menguasai dasar-dasar suatu disiplin dengan hanya mempelajari buku-buku spesialisasi dasar, tetapi model AI skala besar memerlukan jutaan data untuk mencapai efek dasar pembelajaran. Bahkan ketika Anda mengubah cara bertanya, pertanyaan-pertanyaan dasar ini pun tidak dapat dipahami dengan benar, sehingga model tidak benar-benar meningkat dalam kecerdasan yang sejati: ini adalah gambaran langsung dari fenomena yang disebutkan di awal artikel, yaitu pertanyaan-pertanyaan dasar yang Grok3 pun masih tidak dapat menjawab dengan benar.

Namun, di luar 'Powerful Flying Brick', jika Grok3 benar-benar dapat mengungkapkan 'kenyataan bahwa model pra-pelatihan akan segera berakhir' kepada industri, maka ini masih dianggap memiliki arti penting yang signifikan bagi industri.

Mungkin, setelah demam Grok3 perlahan-lahan mereda, kita juga dapat melihat lebih banyak kasus serupa dengan Fei-Fei Li 'mengeset ulang model berkinerja tinggi dengan biaya 50 dolar berdasarkan kumpulan data tertentu' muncul. Dan dalam eksplorasi ini, akhirnya menemukan jalan yang benar-benar menuju AGI.

GROK-2.01%
XAI-2.6%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)