Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Futures Kickoff
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Tether Perluas Data Pelatihan Open AI Dengan Rilis Dataset QVAC Genesis II
Temukan berita dan acara fintech teratas!
Berlangganan newsletter FinTech Weekly
Dibaca oleh eksekutif di JP Morgan, Coinbase, Blackrock, Klarna dan lainnya
Perluasan besar dalam Data Pelatihan Open AI
Tether Data merilis versi baru dari dataset edukasi sintetis untuk kecerdasan buatan, secara signifikan meningkatkan volume dan cakupan materi pelatihan terbuka yang tersedia bagi peneliti di seluruh dunia. Divisi riset AI perusahaan, QVAC, mengumumkan bahwa rilis baru ini, yang disebut QVAC Genesis II, menambahkan 107 miliar token ke dataset sebelumnya, sehingga total ukurannya menjadi 148 miliar token.
Dataset yang diperluas ini kini menjadi sumber daya edukasi sintetis terbesar yang tersedia secara publik yang dirancang khusus untuk pra-pelatihan AI. Dataset ini mencakup 19 bidang akademik dan bertujuan meningkatkan cara model belajar penalaran, penjelasan, dan pengambilan keputusan daripada sekadar mengenali pola permukaan.
Pengumuman ini menempatkan rilis ini sebagai langkah menuju pengembangan AI yang lebih transparan dan dapat diakses, di saat banyak dataset pelatihan canggih tetap terkunci dalam sistem kepemilikan.
Berdasarkan Rilis Genesis Pertama
QVAC Genesis II membangun dari karya yang pertama kali diperkenalkan dengan Genesis I, yang berfokus pada pembuatan dataset sintetis berbasis edukasi yang tervalidasi dan mencakup mata pelajaran inti sains, teknologi, rekayasa, dan matematika. Rilis sebelumnya ini menetapkan kerangka kerja untuk menghasilkan pertanyaan pelatihan terstruktur yang bertujuan meningkatkan akurasi penalaran.
Rilis baru ini memperluas cakupan ke sepuluh bidang tambahan, termasuk kimia, ilmu komputer, statistik, pembelajaran mesin, astronomi, geografi, ekonometrika, dan teknik elektro. Selain itu, juga mengulas kembali konten fisika tingkat perguruan tinggi, yang diregenerasi menggunakan metodologi terbaru yang dirancang untuk meningkatkan kejelasan konsep.
Kedua rilis ini membentuk apa yang disebut QVAC sebagai dataset edukasi sintetis terbesar yang pernah tersedia untuk publik. Dataset ini dimaksudkan untuk digunakan dalam pra-pelatihan model bahasa besar dan sistem AI lain yang membutuhkan materi akademik terstruktur.
Perubahan dalam Cara Data Pelatihan Dihasilkan
Inti dari Genesis II adalah metode baru dalam pembuatan data yang disebut Reasoning Level Option. Pendekatan ini berbeda dari banyak teknik data sintetis yang ada dengan tidak hanya fokus pada jawaban yang salah, tetapi juga pada jawaban yang benar.
Alih-alih menganggap jawaban yang benar sebagai akhir proses, metode ini menganalisis setiap opsi jawaban dalam pertanyaan pilihan ganda. Pilihan yang benar diuraikan untuk memperkuat alasan mengapa mereka benar, sementara opsi yang salah diperiksa untuk mengatasi kesalahpahaman umum. Struktur ini memungkinkan model belajar penalaran sebab-akibat dan logika pengambilan keputusan daripada sekadar mengasosiasikan pertanyaan dengan hasilnya.
Pendekatan ini melengkapi metode Failure Analysis yang diperkenalkan di Genesis I, yang berfokus pada mendapatkan nilai dari kesalahan model. Bersama-sama, kedua metode membentuk pipeline di mana setiap pertanyaan yang dihasilkan dirancang untuk memberikan nilai instruksional.
Evaluasi independen yang dikutip oleh QVAC menunjukkan bahwa model yang dilatih dengan data Genesis II menunjukkan tingkat akurasi penalaran yang lebih tinggi dan jawaban yang lebih jelas dibandingkan dengan model yang dilatih menggunakan dataset sintetis sebelumnya.
Penekanan pada Pemahaman daripada Kelancaran
Sebagian besar ekosistem pelatihan AI saat ini bergantung pada pengumpulan volume teks yang sangat besar, sering diambil dari sumber publik, untuk meningkatkan kefasihan bahasa. Tujuan yang dinyatakan QVAC berbeda dalam penekanan. Dataset Genesis disusun untuk mengajarkan model bagaimana menalar melalui masalah dan menjelaskan kesimpulan secara jelas.
Kepemimpinan perusahaan menyatakan bahwa niatnya adalah untuk beralih dari sistem pelatihan yang memprediksi urutan teks yang mungkin, menuju model yang menunjukkan pemahaman terhadap konsep dasar. Desain dataset ini memprioritaskan kejelasan, sebab-akibat, dan logika, dengan tujuan mengurangi ambiguitas dalam keluaran model.
Pendekatan ini sejalan dengan diskusi yang lebih luas dalam riset AI tentang keandalan dan kemampuan penjelasan, terutama saat sistem AI digunakan dalam pendidikan, ilmu pengetahuan, dan konteks pengambilan keputusan.
Akses Terbuka untuk Peneliti dan Pengembang
Seperti dataset Genesis asli, QVAC Genesis II dirilis secara terbuka. Dataset ini tersedia di bawah lisensi Creative Commons Attribution–NonCommercial 4.0, memungkinkan peneliti, institusi akademik, dan pengembang independen untuk menggunakan dan mempelajari data ini di luar lingkungan komersial.
Dataset dan model terkait dihosting di Hugging Face, bersama makalah teknis yang merinci metodologi pembuatan dan hasil evaluasi. Distribusi terbuka ini bertujuan menurunkan hambatan bagi peneliti yang tidak memiliki akses ke dataset proprietary besar.
Dengan mempertahankan lisensi non-komersial, QVAC bertujuan mendukung riset akademik dan komunitas, sambil membatasi eksploitasi komersial langsung.
Mendukung Pengembangan AI Terdesentralisasi
Rilis ini juga sesuai dengan strategi yang lebih luas yang dijalankan oleh Tether Data untuk mendorong pengembangan AI yang terdesentralisasi. Perusahaan menyatakan bahwa data pelatihan berkualitas tinggi tidak seharusnya terbatas pada organisasi yang memiliki akses ke infrastruktur cloud terpusat.
Dengan menjadikan dataset besar dan terstruktur ini tersedia secara publik, QVAC berupaya memungkinkan pelatihan lokal, eksperimen, dan penerapan model AI. Pendekatan ini dimaksudkan untuk mendukung lingkungan riset di mana sumber daya komputasi mungkin terbatas tetapi kontribusi intelektual tetap penting.
Penekanan pada desentralisasi mencerminkan minat yang berkembang untuk mengurangi ketergantungan pada sejumlah kecil platform AI dominan dan mendorong ekosistem riset yang lebih tersebar.
Peran Tether dalam Riset AI
QVAC berfungsi sebagai divisi riset AI dari Tether Data. Meskipun Tether dikenal luas karena perannya dalam aset digital dan stablecoin, perusahaan ini telah memperluas kegiatan ke bidang data dan riset AI dalam beberapa tahun terakhir.
Melalui QVAC, Tether Data berfokus pada pembangunan infrastruktur dan sumber daya yang mendukung riset terbuka. Dataset Genesis merupakan salah satu output paling terlihat dari upaya tersebut, menempatkan perusahaan dalam diskusi tentang pengembangan AI terbuka dan data pelatihan yang berfokus pada edukasi.
Karya ini juga mencerminkan semakin banyaknya tumpang tindih antara perusahaan fintech dan riset AI canggih, karena perusahaan teknologi keuangan semakin berinvestasi dalam data science dan kemampuan machine learning.
Pandangan Kepemimpinan tentang Rilis Ini
Kepemimpinan perusahaan menyatakan bahwa rilis Genesis II merupakan langkah menjauh dari pendekatan pelatihan yang hanya mengutamakan volume. Fokusnya, menurut pernyataan dari tim eksekutif Tether, adalah mengajarkan sistem AI bagaimana menalar dan menjelaskan daripada sekadar menghasilkan respons yang lancar.
Paolo Ardoino, CEO Tether, menekankan bahwa AI yang andal harus didasarkan pada pemahaman mengapa jawaban benar. Ia menyatakan bahwa membuat dataset ini tersedia secara terbuka mencerminkan keyakinan bahwa AI yang lebih kuat dan dapat dijelaskan akan memberi manfaat bagi masyarakat secara keseluruhan.
Pandangan ini sejalan dengan kekhawatiran yang diungkapkan para peneliti tentang keterbatasan model yang dilatih terutama pada teks tidak terstruktur.
Lingkup Edukasi dan Cakupan Domain
Gabungan dataset Genesis I dan II mencakup 19 domain, dengan konten yang dirancang untuk tingkat pendidikan menengah dan tinggi. Subjeknya berkisar dari matematika dan fisika dasar hingga bidang terapan seperti ekonometrika dan pembelajaran mesin.
Setiap domain mencakup pertanyaan terstruktur, penjelasan, dan jalur penalaran yang dimaksudkan untuk mencerminkan cara konsep diajarkan dan dinilai dalam pengaturan pendidikan formal. Desain ini bertujuan mendukung tugas pra-pelatihan yang membutuhkan konsistensi logis dan kedalaman konseptual.
Dengan meregenerasi dan memperluas konten menggunakan metode yang lebih baik, QVAC berupaya menyempurnakan representasi materi edukasi dalam dataset sintetis.
Evaluasi dan Kinerja Model
Berdasarkan evaluasi internal dan independen yang dirujuk oleh QVAC, model yang dilatih dengan data Genesis II menunjukkan peningkatan performa dalam tugas yang membutuhkan penalaran mendalam. Ini termasuk menjawab pertanyaan terstruktur, menjelaskan kesimpulan, dan menghindari respons yang ambigu atau kontradiktif.
Hasil evaluasi menunjukkan bahwa kombinasi Failure Analysis dan Reasoning Level Option menghasilkan keluaran yang lebih konsisten. Meskipun perusahaan tidak memposisikan dataset ini sebagai solusi tunggal, mereka menganggapnya sebagai fondasi yang kuat untuk pelatihan dan penyempurnaan lebih lanjut.
Diharapkan peneliti akan melakukan evaluasi tambahan seiring penggunaan dataset ini yang lebih luas di komunitas.
Dampak untuk Riset AI Terbuka
Rilis dataset terbuka sebesar ini dapat mempengaruhi pendekatan peneliti akademik dan independen dalam pelatihan model. Akses ke data edukasi terstruktur dalam skala ini selama ini terbatas pada organisasi yang memiliki dana besar.
Dengan menyediakan alternatif ini, QVAC Genesis II dapat mendukung eksperimen dengan model yang lebih kecil, pelatihan lokal, dan riset tentang metode AI yang dapat dijelaskan.
Dataset ini juga berpotensi menjadi tolok ukur untuk proyek data sintetis di masa depan yang mengutamakan kualitas penalaran daripada sekadar ukuran.
Posisi dalam Ekosistem AI yang Lebih Luas
QVAC Genesis II memasuki ekosistem AI yang berkembang pesat dan semakin terkonsentrasi sumber daya. Banyak model paling canggih dilatih menggunakan dataset proprietary yang tidak dapat diakses untuk pengujian atau replikasi.
Dataset terbuka seperti Genesis II menawarkan alternatif, memungkinkan transparansi dan kemajuan bersama. Mereka juga menimbulkan pertanyaan tentang bagaimana sumber daya terbuka dapat berdampingan dengan pengembangan AI komersial.
Keterlibatan perusahaan yang berakar pada fintech dan aset digital menyoroti bagaimana riset AI menarik minat dari berbagai industri selain perusahaan teknologi tradisional.
Ketersediaan dan Langkah Selanjutnya
Dokumentasi teknis lengkap untuk dataset ini, berjudul “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” telah dipublikasikan di blog riset QVAC. Akses ke dataset dan model terkait tersedia melalui Hugging Face.
QVAC menyatakan berencana terus menyempurnakan metodologi dan memperluas cakupan edukasi dalam rilis mendatang. Masukan dari komunitas riset diharapkan akan memengaruhi pengembangan iterasi berikutnya.
Dorongan Berkelanjutan untuk Fondasi Terbuka
Dengan Genesis II, QVAC menegaskan posisinya bahwa data pelatihan terbuka dan terstruktur sangat penting untuk membangun sistem AI yang andal. Rilis ini mencerminkan pandangan bahwa kecerdasan harus didasarkan pada penalaran dan penjelasan, bukan hanya asosiasi statistik.
Seiring sistem AI semakin terintegrasi dalam pendidikan, ilmu pengetahuan, dan layanan keuangan, termasuk aplikasi fintech, kualitas data pelatihan mereka akan tetap menjadi perhatian utama.
Untuk saat ini, dataset Genesis yang diperluas ini menjadi kontribusi penting untuk riset AI terbuka, menawarkan skala, struktur, dan aksesibilitas yang jarang terlihat di luar lingkungan proprietary.