Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Detail pelatihan GPT-4 OpenAI tentang "belum lagi kematian" telah dirilis, ini interpretasi saya
Sumber Asli: Minoritas
Itu adalah pagi yang biasa beberapa hari yang lalu. Saya sedang memindahkan batu bata setiap hari, dan tiba-tiba segala macam informasi membanjiri: “Cepatlah, struktur model GPT-4 telah bocor, dan model besar yang diproduksi di dalam negeri akan melampauinya lagi!”
Nyalakan media sosial dan lihat, oke, Anda tidak perlu berbicara bahasa Inggris, dan orang-orang domestik sudah online, saya sangat yakin dengan kecepatan ini. Namun, ketika saya menelusuri sumbernya dan melihat seberapa andal informasi tersebut, tiba-tiba saya merasa bahwa saya telah keluar dari lingkaran teknologi dari lingkaran hiburan.
Mengingat keadaan Internet saat ini di mana “Berita Palsu” bertebaran di langit, hal pertama yang saya lakukan setelah melihat berita ini adalah melacak sumbernya.
▍Masuk dan keluar
Titik awal untuk penambangan informasi saya adalah utas tweet yang dibagikan di Berita Peretas yang diekstraksi melalui Pembaca Utas (diarsipkan 11 Juli). Klik untuk membukanya, dan ada dua kalimat:
Level pesta tajuk ini tidak kalah dengan di China.
Seperti yang kita semua tahu, OpenAI melanggar komitmennya untuk membuka saat merilis GPT-4, tidak mengungkapkan bobot atau detail teknis apa pun, dan dikritik secara luas oleh industri. Ini mungkin mengapa blogger menggunakan It is over stalk untuk membuat efek dramatis “pembalikan plot”.
Melihat kontennya lagi, ini adalah detail pelatihan GPT-4 OpenAI yang bungkam. Ada banyak spekulasi tentang informasi ini, tetapi pejabat itu tidak mengungkapkannya, ketika disebutkan sangat kabur (teks aslinya relatif tidak jelas, menggunakan banyak singkatan dan jargon, beberapa akan dijelaskan nanti) :
Pertanyaannya adalah, bagaimana informasi ini muncul, dan apakah dapat dipercaya?
Ikuti pohon anggur untuk menyentuh “melon”, dan saya menemukan penerbit rangkaian tweet ini - Yam Peleg.
Membaca artikel lelaki tua ini, mau tidak mau saya memikirkan Tom, seorang petugas penghubung siswa yang saya temui di Israel, yang dapat membuat darah Anda mendidih jika Anda mengatakan sesuatu.
Mengingat orang tua ini telah meneliti OpenAI dan mengenal banyak orang di dalam OpenAI, jadi jika dia mendapatkan beberapa informasi internal, menurut saya kredibilitasnya sebenarnya cukup tinggi.
Tetapi ketika saya hendak mempelajari postingannya dengan hati-hati di malam hari, tiba-tiba saya menemukan bahwa dia telah menghapus semua postingan sebelumnya. Awalnya, saya pikir saya dilindungi oleh OpenAI, tetapi saya senang karena saya menyimpan file tersebut. Setelah melihat lebih dekat, saya menemukan bahwa itu bukan karena OpenAI meminta penghapusan, tetapi karena dia juga melaporkannya dari kolom pembayaran dan mengeluhkan pelanggaran hak cipta.
Setelah memeriksanya, saya menemukan:
Sebelumnya, SemiAnalysis juga menerbitkan sebuah artikel yang mengungkapkan bahwa para insinyur Google mengatakan dalam komunikasi internal bahwa “Kami Tidak Memiliki Parit, Dan Juga OpenAI” (Kami Tidak Memiliki Parit, Dan Juga Tidak OpenAI), yang menyebabkan banyak diskusi. Artikel ini kemudian dikonfirmasi kebenarannya.
Dari segi ini, Saudara Dylan Patel mungkin memang memiliki beberapa orang dalam, dan kredibilitas informasi yang mereka berikan harus tetap dapat diterima.
Adapun mengapa mereka sangat ingin agar Brother Yam menghapus tweet - karena “informasi orang dalam” ini memang berharga, dan berlangganan artikel berbayar SemiAnalysis berharga $500 setahun. Berlangganan Brother Yam ke versi elite berharga $1.000.
▍Analisis Kartu
Menurut seluk beluk ini, menurut saya rumor ini masih memiliki tingkat kredibilitas tertentu. Berikut ini adalah beberapa analisis saya berdasarkan informasi ini, yang saya usulkan untuk didiskusikan.
Persaingan untuk model privat akan berfokus pada paralelisme
Menurut rumor ini, jika Anda ingin melatih pesaing GPT-4, diperkirakan menggunakan sekitar 8.192 chip H100, dengan harga $2 per jam, pra-pelatihan dapat diselesaikan dalam waktu sekitar 55 hari, dan biayanya adalah sekitar $21,5 juta (150 juta RMB).
Biaya ini sebenarnya tidak terlalu besar untuk pasar LLM yang bergejolak saat ini. Para pemain besar domestik saat ini dapat dengan mudah melakukan beberapa sesi latihan. Jadi, sejujurnya kali ini, mungkin benar-benar tidak menyombongkan benchmark GPT-4 dalam waktu setengah tahun dengan kemampuan model (setidaknya skala parameter).
Jika biaya pelatihan tidak menjadi masalah, apakah data pelatihan akan menjadi masalah? Saya rasa tidak juga. Dikabarkan bahwa data pelatihan GPT-4 memiliki total 13T (13 triliun) token. Sebagai perbandingan, kumpulan data publik CommonCrawl dan RefinedWeb memiliki token 5T. Dikabarkan bahwa sisanya berasal dari Twitter, Reddit, dan YouTube; beberapa tuntutan hukum juga mengklaim bahwa OpenAI menggunakan data bajakan dari “perpustakaan bayangan” seperti LibGen dan SciHub.
Oleh karena itu, menurut saya skala data ini tidak dapat dicapai, selain itu, negara itu sendiri telah mengumpulkan banyak sumber daya Tiongkok, sehingga data pelatihan seharusnya tidak menjadi masalah besar.
Untuk masalah lain seperti pre-training, fine-tuning, dan Chinese encoding and decoding, ternyata tidak terlalu banyak rahasia teknis, dan metodenya relatif terbuka. Dengan sumber daya yang cukup, itu harus diselesaikan dalam setengah tahun.
Jadi, ambang terakhir yang tersisa adalah paralelisme. Nyatanya, sejumlah besar ruang telah digunakan dalam rumor ini untuk memperkenalkan konten yang relevan, dan tingkat profesionalnya masih relatif tinggi, saya hanya bisa memberikan beberapa penjelasan dangkal di sini.
Secara kasar, yang disebut masalah paralel adalah Anda memiliki model besar, bagaimana membiarkan kebanyakan orang menggunakannya pada saat yang sama dengan biaya terendah. Ini melibatkan banyak masalah desain profesional Dalam kasus sumber daya komputasi tetap, bagaimana cara mengalokasikan sumber daya komputasi di tautan yang berbeda? Bagaimana menangani konkurensi? Bagaimana cara mengelola memori?
Kemampuan pemrosesan paralel secara langsung menentukan pengalaman pengguna. Saat ini, ChatGPT dan API berbasis GPT-3.5 relatif lancar, yang sangat bertenaga. Semua orang di sini mungkin mengatakan bahwa LLM domestik lain atau Claude yang saya alami lebih cepat daripada GPT-3.5. Namun, semua orang tidak mempertimbangkan besarnya penggunaan. GPT-3.5 memiliki kinerja seperti itu di bawah konkurensi yang tinggi. Jika pabrikan lain tidak dapat menandingi kemampuan OpenAI, mereka tidak akan dapat merebut pasar OpenAI.
Oleh karena itu, kapabilitas paralel dapat menjadi salah satu poin kunci persaingan untuk berbagai pesaing OpenAI.
GPT-5 berfokus pada multimodality
Seperti disebutkan sebelumnya, dikabarkan bahwa GPT-4 adalah model “campuran ahli” (MoE) yang terdiri dari 16 model ahli. Berikut adalah penjelasan singkat tentang apa itu “pencampuran ahli”, yang mengacu pada membagi “masalah” pengguna menjadi beberapa sub-masalah, dan setiap sub-masalah diserahkan ke model yang lebih kecil (yaitu, “ahli”) untuk memecahkan, dan kemudian melalui “model routing” dipilih dan digabungkan, dan kemudian output ke pengguna.
Desas-desus selanjutnya mengklaim bahwa setiap “ahli” GPT-4 memiliki 111 miliar parameter setara dengan GPT-3 (ini konsisten dengan parameter GPT-4 yang dikatakan Sam Altman sebelumnya bahkan lebih kecil dari GPT-3.5), di antaranya ada 55 miliar Parameter dibagikan. Setiap lintasan inferensi maju (menghasilkan output token) menggunakan dua “pakar”, yang secara efektif menghabiskan sekitar 280 miliar parameter. Angka ini secara signifikan lebih kecil dari jumlah yang dibutuhkan tanpa KLH, dan ini juga mirip dengan prediksi banyak sarjana di tahap awal.
Perlu dicatat bahwa rumor menunjukkan bahwa teks dan data kode yang digunakan untuk pelatihan GPT-4 digunakan kembali. Dikombinasikan dengan pilihan untuk menggunakan kerangka kerja MoE, saya pribadi menebak: baik data teks berkualitas tinggi yang dapat dengan mudah diperoleh saat ini hampir habis, atau peningkatan kinerja LLM dengan menambah jumlah data tanpa batas sudah sangat terbatas.
Namun, apa pun situasinya, jika GPT-5 ingin memiliki terobosan kinerja yang besar, ia harus dapat memanfaatkan sepenuhnya data video, gambar, dan audio dalam jumlah besar yang ada, dengan kata lain, itu adalah " model multimodal".
Masalahnya adalah, menurut rumor ini, multimodalitas visual OpenAI saat ini tidak memiliki banyak hal untuk ditawarkan. Ini adalah encoder visual independen yang menggunakan teks sebagai input untuk pra-pelatihan dan kemudian menggunakan sekitar 2 triliun Token untuk penyempurnaan. Metode pelatihan ini jelas tidak dapat memanfaatkan sepenuhnya data video, gambar, dan audio yang ada.
Oleh karena itu, OpenAI selalu menekankan bahwa GPT-5 belum dilatih, dan kemungkinannya benar. Sebelum melatih GPT-5, mereka harus menemukan arsitektur model multimodal yang lebih baik sehingga model tersebut dapat memanfaatkan sepenuhnya data audio dan video. Hanya dengan dapat menggunakan data pelatihan berkualitas tinggi ini, GPT-5 dapat memperoleh peningkatan kapasitas yang memadai. (Pada saat yang sama, jika GPT-5 benar-benar dapat memanfaatkan sepenuhnya data audio dan video ini, maka apakah itu “Badan Kecerdasan Super” yang baru-baru ini diusulkan oleh AGI atau OpenAI, tampaknya tidak terlalu jauh.)
OpenAI mungkin sengaja merilis rumor ini
Kesimpulan ini murni spekulasi pribadi. Fakta saja tidak cukup, lihat saja.
Pemahaman saya adalah bahwa OpenAI sangat menyadari bahwa parit GPT-4 tidak dalam, dalam kegilaan saat ini, tidak sulit bagi pesaing untuk mengejar ketinggalan. Dan seperti yang dianalisis di atas, struktur model skala besar multi-modal mereka saat ini tidak boleh diselesaikan.Pada saat ini, jika pemain baru muncul dan menerobos dari multi-modal, kemungkinan OpenAI disusul oleh kurva juga sangat tinggi .
Jadi, ini mungkin rencana OpenAI untuk memperlambat perang - saya akan mengungkapkan beberapa informasi GPT-4 kepada Anda, biarkan pemain kepala terlebih dahulu melakukan pekerjaan pemeragaan ulang GPT-4, dan berjalan di jalan yang telah dilalui OpenAI. .
Jika selama proses ini, OpenAI telah meletakkan dasar untuk pelatihan GPT-5 dan menyelesaikan penelitian pendahuluan model besar multi-modal, bahkan jika GPT-4 telah dilampaui oleh model bahasa besar lainnya, OpenAI tidak akan panik. Secara pribadi, menurut saya multimodalitas kemungkinan akan menjadi generasi terakhir dari keterlibatan manusia, dan AGI mungkin menjadi kekuatan utama dalam pengembangan dan evolusi model di masa depan. Dengan kata lain, jika Anda menang kali ini, Anda mungkin menang sampai akhir.