Pendahuluan: Di medan perang model multi-modal besar, beberapa orang telah mengetahuinya. Menurut laporan media asing, model multi-modal baru OpenAI, Gobi, tampaknya sedang dalam persiapan. Pertarungan antara Google dan OpenAI tampaknya akan segera terjadi.

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Menjelang musim gugur ini, pertarungan model multi-modal antara Google dan OpenAI juga memasuki tahap yang sengit.

Baru minggu lalu, Google membuka kemampuan model besar multimodal Gemini kepada beberapa perusahaan luar.

Dan OpenAI tentu saja tidak akan tinggal diam dan menunggu kematian. Mereka berpacu dengan waktu untuk mengintegrasikan fungsi multi-modal ke dalam GPT-4, berupaya meluncurkan model multi-modal besar dengan fungsi yang mirip dengan Gemini, dan membunuh Google dalam satu gerakan.

Fungsi multi-modal yang legendaris telah didemonstrasikan pada konferensi GPT-4 OpenAI yang mengejutkan dunia pada bulan Maret tahun ini——

Gambar sketsa di atas kertas, ambil foto dan kirimkan ke GPT-4, dan ucapkan “Buatkan saya situs web dengan tata letak ini”, dan kode halaman web akan segera ditulis.

Bos Greg Brockman secara pribadi mendemonstrasikannya secara online

Namun kemudian, multimodalitas tampaknya hanya terjadi dalam sekejap, dan belum ada yang pernah melihat fungsi fisik yang diproduksi.

Jadi, apakah perang multi-modal antara Google dan OpenAI akhirnya akan terjadi?

Bersaing dengan Google, OpenAI bergegas merilis model multi-modal besar

Dihadapkan dengan rumor bahwa Google akan membunuh pembunuh besar ini, OpenAI tentu tidak akan tinggal diam.

Menurut media asing The Information, model besar multimoda baru yang disebut Gobi sedang dalam persiapan intensif.

OpenAI berencana meluncurkan LLM multi-modal sebelum rilis Gemini, mengalahkan Google sepenuhnya.

Greg Brockman dari OpenAI vs Demis Hassabis dari Google

Faktanya, setelah meluncurkan pratinjau fitur multi-modal GPT-4 pada bulan Maret, OpenAI telah meluncurkan fitur ini ke perusahaan bernama Be My Eyes, namun belum menyediakannya ke perusahaan lain.

Sesuai dengan namanya, perusahaan ini sedang mengembangkan teknologi yang memungkinkan penyandang tunanetra atau tunanetra dapat melihat dengan lebih jelas.

Baru-baru ini, OpenAI berencana meluncurkan fitur bernama GPT-Vision secara lebih luas.

Mengapa OpenAI membutuhkan waktu lama?

Alasan utamanya adalah mereka khawatir fungsi visual baru tersebut akan digunakan oleh penjahat, seperti menyamar sebagai manusia dengan memecahkan kode verifikasi secara otomatis, atau melacak manusia melalui pengenalan wajah.

Namun, para insinyur OpenAI tampaknya telah mengatasi risiko keamanan hukum ini.

Demikian pula, juru bicara Google juga mengatakan: Google telah mengambil beberapa tindakan untuk mencegah Gemini disalahgunakan.

Dalam janji yang dibuat pada bulan Juli, Google berjanji untuk mengembangkan kecerdasan buatan yang bertanggung jawab di semua produknya.

Dapatkah Gobi menjadi GPT-5?

Setelah GPT-Vision, OpenAI kemungkinan akan meluncurkan model multi-modal besar yang lebih kuat, dengan nama kode Gobi.

Berbeda dengan GPT-4, Gobi dibangun berdasarkan model multimodal sejak awal.

Jadi, apakah Gobi adalah GPT-5 yang legendaris?

Saat ini, kami tidak tahu. Belum ada informasi pasti sejauh mana pencapaian Gobi dalam latihan.

Pada awal September, Mustafa Suleyman, salah satu pendiri DeepMind dan sekarang CEO Inflection AI, merilis sebuah kejutan dalam sebuah wawancara—menurut spekulasinya, OpenAI diam-diam melatih GPT-5.

Suleyman yakin Sam Altman mungkin tidak mengatakan yang sebenarnya ketika dia baru-baru ini mengatakan bahwa mereka tidak melatih GPT-5. (Kata-kata aslinya adalah: Ayolah. Saya tidak tahu. Saya pikir lebih baik kita semua jujur saja.)

Di sini, menurut orang yang pernah mencoba Gemini, Gemini akan menghasilkan halusinasi lebih sedikit dibandingkan model yang ada. Alasannya dirinci di bawah ini.

Singkatnya, perang model multi-modal antara Google dan OpenAI dapat dikatakan sebagai pertarungan versi AI antara iPhone dan Android.

Salah satunya adalah raksasa Silicon Valley yang telah mendominasi bidang AI selama bertahun-tahun, dan yang lainnya adalah perusahaan start-up AI terkemuka yang tidak ada bandingannya dalam pusat perhatian.Seberapa besar kesenjangan antara keduanya, semua orang menunggu dengan nafas tertahan.

### Google diam-diam menguji Gemini

Di sisi lain, Google juga mulai mengundang beberapa pengembang eksternal untuk mempercepat pengujian model besar multi-modal generasi berikutnya, Gemini.

Minggu lalu, The Information secara eksklusif melaporkan bahwa Gemini akan segera siap untuk rilis beta dan diintegrasikan ke dalam layanan seperti Google Cloud Vertex AI.

Pada Konferensi Pengembang Google I/O tahun ini, Pichai memperkenalkan Gemini secara terbuka, yang merupakan model multimodal, alat integrasi efisien, dan API.

Agar bisa bekerja sama melakukan hal-hal besar, Google pun menggabungkan Google Brain dengan DeepMind Labs.

Dikatakan bahwa setidaknya lebih dari 20 eksekutif berpartisipasi dalam penelitian dan pengembangan Gemini, dipimpin oleh Demis Hassabis, pendiri DeepMind, dan Sergey Brin, pendiri Google, berpartisipasi dalam penelitian dan pengembangan.

Ada juga ratusan karyawan di Google DeepMind, termasuk mantan direktur Google Brain Jeff Dean dan lainnya.

Seseorang yang telah mengujinya mengatakan bahwa Gemini memiliki keunggulan dibandingkan GPT-4 setidaknya dalam satu hal: Selain informasi yang tersedia untuk umum di web, model ini juga memanfaatkan sejumlah besar data kepemilikan dari produk konsumen Google (penelusuran, YouTube) .

Oleh karena itu, Gemini harus sangat akurat dalam memahami maksud pengguna untuk pertanyaan tertentu, dan tampaknya menghasilkan lebih sedikit jawaban yang salah, misalnya halusinasi.

Menurut laporan sebelumnya dari analis SemiAnalysis, model besar generasi berikutnya dari Google, Gemini, telah mulai berlatih pada Pod TPUv5 baru, dengan daya komputasi hingga ~1e26 FLOPS, yang 5 kali lebih besar daripada daya komputasi pelatihan GPT-4.

Selain itu, basis data pelatihan Gemini berisi 93,6 miliar menit subtitle video di Youtube, dan total ukuran kumpulan data kira-kira dua kali lipat dari GPT-4.

Dikatakan bahwa model besar generasi berikutnya dari Google juga terdiri dari berbagai skala dan mungkin menggunakan arsitektur MoE dan teknologi pengambilan sampel spekulatif.

Token dihasilkan terlebih dahulu oleh model kecil dan diteruskan ke model besar untuk dievaluasi guna meningkatkan kecepatan penalaran model secara keseluruhan.

Hassabis, kepala Google DeepMind, mengatakan dalam sebuah wawancara bahwa Gemini diperkirakan akan menelan biaya puluhan hingga ratusan juta dolar, yang setara dengan biaya pengembangan GPT-4.

Gemini akan mengintegrasikan teknologi yang digunakan dalam AlphaGo, yang akan memberikan sistem kemampuan perencanaan dan pemecahan masalah baru.

Dapat dikatakan bahwa Gemini menggabungkan beberapa keunggulan sistem AlphaGo dengan kemampuan bahasa yang luar biasa dari model bahasa besar. Dan, kami punya beberapa inovasi menarik lainnya.

Teknologi di balik AlphaGo adalah pembelajaran penguatan, sebuah teknologi yang dipelopori oleh DeepMind.

Agen RL berinteraksi dengan lingkungan dari waktu ke waktu, mempelajari kebijakan melalui trial and error, sehingga memaksimalkan imbalan kumulatif jangka panjang

Melalui pembelajaran penguatan, AI dapat menyesuaikan kinerjanya melalui uji coba dan menerima umpan balik, sehingga belajar menghadapi masalah sulit, seperti memilih cara mengambil langkah selanjutnya dalam Go atau video game.

Selain itu, AlphaGo juga menggunakan metode Monte Carlo Tree Search (MCTS) untuk mengeksplorasi dan mengingat semua kemungkinan gerakan di papan.

Dibandingkan dengan model yang ada, Gemini akan sangat meningkatkan kemampuan pembuatan kode pengembang perangkat lunak, dan Google berharap dapat menggunakannya untuk mengejar asisten kode GitHub Copilot dari Microsoft.

Google juga telah membahas penggunaan Gemini untuk mengimplementasikan fungsi seperti analisis bagan, seperti meminta model untuk menafsirkan arti bagan yang telah selesai, dan menggunakan perintah teks atau suara untuk menelusuri browser web atau perangkat lunak lainnya.

Google Cloud Vertex AI, platform pengembang Google Cloud, juga akan didukung oleh Gemini, dengan tersedia versi besar dan kecil, sehingga pengembang dapat membayar untuk membeli model kecil untuk dijalankan di perangkat pribadi.

Kini, Google sepenuhnya bersiap menghadapi perang, menunggu Gemini memulai serangan baliknya.

gpt-3.5-turbo-instruct dirilis

Pada bulan Juli, OpenAI mengumumkan bahwa API GPT-4 telah tersedia sepenuhnya dan akan meluncurkan model baru dalam beberapa bulan ke depan.

Tidak, baru hari ini netizen menerima email yang merilis model baru gpt-3.5-turbo-instruct untuk menggantikan model lama text-davinci-003.

Menurut laporan, gpt-3.5-turbo-instruct adalah model gaya InstructGPT, dan metode pelatihannya mirip dengan text-davinci-003.

Cara penggunaannya mirip dengan -Completion sebelumnya, diselesaikan sesuai petunjuk kata prompt.

Dari segi harga, gpt-3.5-turbo 4K tetap konsisten.

Beberapa netizen sudah mulai menggunakan model terbaru untuk bermain catur sekitar tahun 1800 Elo.

Dia sebelumnya menemukan bahwa GPT tidak dapat melakukan ini sama sekali, tetapi sekarang tampaknya ini hanya masalah pada model obrolan RLHF, dan model Penyelesaian murni berhasil.

Dalam permainannya, gpt-3.5-turbo-instruct dengan mudah mengalahkan Stockfish level 4 (1700 poin) dan tetap tidak ketinggalan di level 5 (2000 poin).

Ia tidak pernah melakukan gerakan ilegal, menggunakan pengorbanan pembukaan yang cerdik, dan skakmat pion dan raja yang luar biasa, memungkinkan lawannya untuk maju tanpa arti yang nyata.

Netizen menggunakan petunjuk gaya PGN berikut untuk mensimulasikan permainan master. Sorotannya agak salah. GPT membuat gerakannya sendiri, dan dia memasukkan gerakan Stockfish secara manual.

Omong-omong, pendaftaran konferensi pengembang OpenAI pertama yang diadakan pada bulan November telah dimulai, jadi cepatlah mendaftar.

Referensi:

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar

Apakah GPT-5 akan hadir? OpenAI terungkap telah mempercepat pelatihan model besar multi-modal Gobi, membunuh Google Gimini dalam satu gerakan!

Bersaing dengan Google, OpenAI bergegas merilis model multi-modal besar

**Dapatkah Gobi menjadi GPT-5? **

gpt-3.5-turbo-instruct dirilis

Dapatkah Gobi menjadi GPT-5?