Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Data manusia akan terpakai oleh OpenAI, lalu apa?
“Lebih besar dari lebih besar” (Lebih besar dari lebih besar) adalah iklan dari Apple tahun itu, yang digunakan untuk menggambarkan model bahasa besar terpanas di bidang AI. Sepertinya tidak ada yang salah dengan itu.
Dari miliaran hingga puluhan miliar hingga ratusan miliar, parameter model besar secara bertahap menjadi liar, dan jumlah data yang digunakan untuk melatih AI juga meningkat secara eksponensial.
Mengambil GPT OpenAI sebagai contoh, dari GPT-1 ke GPT-3, kumpulan data pelatihannya telah tumbuh secara eksponensial dari 4,5 GB menjadi 570 GB.
Pada konferensi Data+AI yang diadakan oleh Databricks belum lama ini, Marc Andreessen, pendiri a16z, percaya bahwa data masif yang dikumpulkan oleh Internet selama dua dekade terakhir merupakan alasan penting munculnya gelombang baru AI ini, karena mantan memberikan yang terakhir dengan data pelatihan yang dapat digunakan.
Namun, bahkan jika netizen meninggalkan banyak data yang berguna atau tidak berguna di Internet, untuk pelatihan AI, data ini mungkin akan habis.
Sebuah makalah yang diterbitkan oleh Epoch, sebuah organisasi penelitian dan peramalan kecerdasan buatan, memperkirakan bahwa data teks berkualitas tinggi akan habis antara tahun 2023-2027.
Sementara tim peneliti mengakui bahwa ada batasan serius dalam metode analisis dan ketidakakuratan modelnya tinggi, sulit untuk menyangkal bahwa kecepatan AI mengonsumsi kumpulan data sangat menakutkan.
Ketika data “manusia” habis, pelatihan AI pasti akan menggunakan konten yang dihasilkan oleh AI itu sendiri. Namun, “lingkaran dalam” seperti itu akan menimbulkan tantangan besar.
Belum lama ini, para peneliti dari Universitas Cambridge, Universitas Oxford, Universitas Toronto, dan universitas lain menerbitkan makalah yang menunjukkan bahwa menggunakan konten yang dihasilkan AI sebagai pelatihan AI akan menyebabkan runtuhnya model baru. **
Jadi, apa penyebab crash yang disebabkan oleh “data yang dihasilkan” untuk pelatihan AI? Apakah ada bantuan?
01 Konsekuensi AI “kawin sedarah”
Dalam makalah berjudul “The Curse of Recursion: Training with Generated Data Makes Models Forget”, para peneliti menunjukkan bahwa “model collapse” adalah proses degenerasi dari beberapa generasi model.
Data yang dihasilkan oleh model generasi sebelumnya akan mencemari model generasi berikutnya Setelah beberapa generasi “mewarisi” model, mereka akan salah memahami dunia.
Keruntuhan model terjadi dalam dua langkah:
Para peneliti pertama kali melatih beberapa model GMM (Gaussian Mixture Model) dan VAE (Variable Autoencoder) dari awal. Mengambil GMM sebagai contoh, paling kiri dari gambar di bawah ini adalah distribusi normal dari data aslinya.
Seperti yang Anda lihat, model awalnya sangat cocok dengan data. Pada iterasi ke-50, distribusi data yang mendasarinya mulai salah persepsi. Ketika iterasi mencapai 2000 kali, model telah konvergen ke titik yang sangat kecil, yang berarti bahwa model mulai mengeluarkan jawaban yang salah secara terus-menerus.
Untuk memverifikasi dampak pra-pelatihan pada hasil eksperimen, para peneliti melakukan eksperimen pada 125 juta parameter LLM (Large Language Model) OPT-125m yang dikembangkan oleh Meta. Kumpulan data berasal dari wikitext2 Wikipedia.
Tidak seperti model kecil seperti GMM dan VAE, biaya pelatihan LLM dari awal sangat tinggi, jadi semuanya telah dilatih sebelumnya. Hasil percobaan adalah sebagai berikut:
Dapat dilihat bahwa pada saat model generasi ke-9, konten keluaran sama sekali tidak dapat dipahami.
Ilia Shumailov, salah satu penulis makalah, mengatakan bahwa seiring waktu, kesalahan dalam data yang dihasilkan AI terakumulasi, dan model utama yang dilatih pada data ini mengembangkan pandangan realitas yang bahkan lebih terdistorsi.
02 Mengapa model mogok?
Alasan utama “runtuhnya model” adalah karena AI bukanlah kecerdasan yang sebenarnya, di balik kemampuannya untuk memperkirakan “kecerdasan” sebenarnya terdapat metode statistik yang didasarkan pada sejumlah besar data.
Pada dasarnya, semua algoritme pembelajaran mesin tanpa pengawasan mengikuti pola sederhana: Berdasarkan serangkaian data, latih model yang dapat menjelaskan hukum data ini.
Dalam proses ini, data dengan probabilitas lebih tinggi dalam set pelatihan lebih mungkin untuk dinilai oleh model, dan data dengan probabilitas lebih rendah akan diremehkan oleh model.
Misalnya, kita perlu mencatat hasil lemparan 100 dadu untuk menghitung probabilitas setiap wajah. Secara teori, kemungkinan setiap wajah muncul adalah sama. Dalam kehidupan nyata, karena ukuran sampel yang kecil, mungkin ada lebih banyak kasus 3 dan 4. Tetapi untuk model, data yang dipelajarinya adalah bahwa 3 dan 4 memiliki probabilitas kemunculan yang lebih tinggi, sehingga cenderung menghasilkan lebih banyak hasil 3 dan 4.
Penyebab sekunder lainnya adalah kesalahan perkiraan fungsi. Ini juga mudah dipahami, karena fungsi real seringkali sangat kompleks. Dalam aplikasi praktis, fungsi yang disederhanakan sering digunakan untuk mengaproksimasi fungsi real, yang menyebabkan kesalahan.
03 Apakah Anda benar-benar kurang beruntung?
Khawatir!
Jadi, dengan semakin sedikitnya data manusia, apakah benar-benar tidak ada peluang untuk pelatihan AI?
Tidak, masih ada cara untuk mengatasi masalah kehabisan data untuk pelatihan AI:
Data “isolasi”
Ketika AI menjadi semakin kuat, semakin banyak orang mulai menggunakan AI untuk membantu diri mereka sendiri dalam pekerjaan mereka, dan AIGC di Internet telah meledak, dan “kumpulan data manusia yang bersih” mungkin menjadi semakin sulit ditemukan.
Daphne Ippolito, ilmuwan peneliti senior di Google Brain, departemen penelitian pembelajaran mendalam Google, mengatakan bahwa di masa mendatang, akan semakin sulit untuk menemukan data pelatihan yang dijamin berkualitas tinggi tanpa kecerdasan buatan.
Ini seperti leluhur manusia yang menderita penyakit genetik berisiko tinggi, tetapi memiliki kemampuan reproduksi yang sangat kuat. Dalam waktu singkat, dia melipatgandakan keturunannya ke seluruh pelosok bumi. Kemudian pada suatu saat, penyakit genetik muncul dan seluruh umat manusia punah.
Untuk mengatasi “keruntuhan model”, salah satu pendekatan yang diusulkan oleh tim peneliti adalah “keunggulan penggerak pertama”, yaitu mempertahankan akses untuk membersihkan sumber data yang dibuat secara artifisial, memisahkan AIGC darinya.
Pada saat yang sama, ini membutuhkan banyak komunitas dan perusahaan untuk bekerja sama agar data manusia bebas dari polusi AIGC.
Namun, kelangkaan data manusia berarti ada peluang yang menguntungkan untuk melakukannya, dan beberapa perusahaan sudah melakukannya. Reddit mengatakan akan secara signifikan meningkatkan biaya mengakses API-nya. Eksekutif perusahaan mengatakan perubahan itu (sebagian) merupakan tanggapan terhadap perusahaan AI yang mencuri datanya. “Database Reddit sangat berharga,” kata pendiri dan CEO Reddit Steve Huffman kepada The New York Times. “Tapi kami tidak perlu memberikan semua nilai itu secara gratis kepada beberapa perusahaan terbesar di dunia.”
Data sintetis
Pada saat yang sama, secara profesional berdasarkan data yang dihasilkan AI, ini telah digunakan secara efektif dalam pelatihan AI. Di mata beberapa praktisi, kekhawatiran bahwa data yang dihasilkan oleh AI akan menyebabkan model runtuh sekarang menjadi semacam “pesta utama”.
Xie Chenguang, pendiri Light Wheel Intelligence, mengatakan kepada Geek Park bahwa seperti yang disebutkan dalam makalah asing, menggunakan data yang dihasilkan AI untuk melatih model AI menyebabkan crash, dan metode eksperimennya bias. Bahkan data manusia dapat dibagi menjadi dapat digunakan dan tidak dapat digunakan, dan percobaan yang disebutkan di makalah langsung digunakan untuk pelatihan tanpa diskriminasi, daripada ditargetkan sebagai data pelatihan setelah pemeriksaan kualitas dan penilaian efektivitas Jelas ada kemungkinan menabrak model.
Xie Chen mengungkapkan bahwa, sebenarnya, GPT-4 OpenAI menggunakan sejumlah besar data yang dihasilkan oleh model GPT-3.5 generasi sebelumnya untuk pelatihan. Sam Altman juga menyatakan dalam sebuah wawancara baru-baru ini bahwa data sintetis adalah cara yang efektif untuk mengatasi kekurangan data model yang besar. Poin utamanya adalah adanya sistem yang lengkap untuk membedakan data mana yang dihasilkan oleh AI yang dapat digunakan dan mana yang tidak, dan untuk terus memberikan umpan balik berdasarkan efek model yang dilatih—ini adalah salah satu trik unik OpenAI yang patut dibanggakan. Arena AI **, perusahaan ini tidak sesederhana mengumpulkan lebih banyak uang dan membeli lebih banyak daya komputasi.
Di industri AI, penggunaan data sintetis untuk pelatihan model sudah menjadi konsensus yang belum diketahui orang luar.
Xie Chen, yang sebelumnya bertanggung jawab atas simulasi mengemudi otonom di perusahaan seperti Nvidia, Cruise, dan Weilai, percaya bahwa menilai dari jumlah data saat ini untuk berbagai pelatihan model skala besar, dalam 2-3 tahun ke depan, manusia data mungkin memang “habis”. Namun, berdasarkan sistem dan metode khusus, data sintetik yang dihasilkan oleh AI akan menjadi sumber data efektif yang tidak ada habisnya**. Dan skenario penggunaan tidak terbatas pada teks dan gambar, jumlah data sintetik yang dibutuhkan oleh industri seperti mengemudi otonom dan robotika akan jauh lebih besar daripada jumlah data teks.
Tiga elemen AI adalah data, daya komputasi, dan algoritme. Sumber data telah diselesaikan, dan model besar algoritme terus berkembang. Satu-satunya tekanan daya komputasi yang tersisa, saya yakin pendiri Nvidia, Huang Renxun, dapat menyelesaikannya lancar.