Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Tether Memperluas Data Pelatihan Open AI Dengan Rilis Dataset QVAC Genesis II
Temukan berita dan acara fintech teratas!
Berlangganan buletin FinTech Weekly
Dibaca oleh eksekutif di JP Morgan, Coinbase, Blackrock, Klarna, dan lainnya
Ekspansi Besar dalam Data Pelatihan Open AI
Tether Data telah merilis versi baru dari kumpulan data pendidikan sintetisnya untuk kecerdasan buatan, secara signifikan meningkatkan volume dan cakupan materi pelatihan terbuka yang tersedia untuk peneliti di seluruh dunia. Divisi riset AI perusahaan, QVAC, mengumumkan bahwa rilis baru, yang disebut QVAC Genesis II, menambahkan 107 miliar token ke kumpulan data sebelumnya, sehingga totalnya menjadi 148 miliar token.
Kumpulan data yang diperluas ini kini menjadi sumber daya pendidikan sintetis publik terbesar yang dirancang khusus untuk pra-pelatihan AI. Kumpulan data ini mencakup 19 domain akademik dan dimaksudkan untuk meningkatkan cara model belajar penalaran, penjelasan, dan pengambilan keputusan, bukan sekadar pengenalan pola pada tingkat permukaan.
Pengumuman ini memposisikan rilis tersebut sebagai langkah menuju pengembangan AI yang lebih transparan dan mudah diakses, pada saat banyak kumpulan data pelatihan lanjutan masih terkunci di dalam sistem milik perusahaan (proprietary).
Bertumpu pada Rilis Genesis Pertama
QVAC Genesis II dibangun di atas pekerjaan yang pertama kali diperkenalkan dengan Genesis I, yang berfokus pada pembuatan kumpulan data sintetis tervalidasi yang berpusat pada pendidikan, mencakup mata pelajaran inti sains, teknologi, rekayasa, dan matematika. Rilis sebelumnya itu menetapkan kerangka kerja untuk menghasilkan pertanyaan pelatihan terstruktur yang bertujuan meningkatkan akurasi penalaran.
Rilis baru memperluas cakupan ke sepuluh bidang tambahan, termasuk kimia, ilmu komputer, statistik, pembelajaran mesin, astronomi, geografi, ekonometrika, dan teknik elektro. Rilis ini juga meninjau kembali konten fisika tingkat perguruan tinggi, dengan meregenerasinya menggunakan metodologi yang diperbarui yang dirancang untuk meningkatkan kejernihan konseptual.
Secara bersama-sama, dua rilis tersebut membentuk apa yang dijelaskan QVAC sebagai kumpulan data pendidikan sintetis paling ekstensif yang pernah disediakan untuk publik. Kumpulan data ini dimaksudkan untuk digunakan dalam pra-pelatihan model bahasa skala besar dan sistem AI lainnya yang memerlukan materi akademik terstruktur.
Perubahan dalam Cara Data Pelatihan Dihasilkan
Di inti Genesis II terdapat metode pembuatan data baru yang disebut Option-Level Reasoning (Penalaran Tingkat Opsi). Pendekatan ini berbeda dari banyak teknik data sintetis yang ada dengan berfokus tidak hanya pada jawaban yang salah, tetapi juga pada jawaban yang benar.
Alih-alih memperlakukan respons yang benar sebagai akhir dari proses, metode ini menganalisis setiap opsi jawaban dalam sebuah pertanyaan pilihan ganda. Pilihan yang benar diuraikan untuk memperkuat mengapa pilihan tersebut benar, sementara opsi yang salah diperiksa untuk mengatasi miskonsepsi yang umum. Struktur ini memungkinkan model belajar penalaran kausal dan logika pengambilan keputusan, bukan sekadar mengasosiasikan pertanyaan dengan hasil.
Pendekatan ini melengkapi metode Failure Analysis (Analisis Kegagalan) yang diperkenalkan dalam Genesis I, yang berfokus pada pengambilan nilai dari kesalahan model. Bersama, kedua metode tersebut membentuk sebuah pipeline di mana setiap pertanyaan yang dihasilkan dirancang untuk menyumbangkan nilai instruksional.
Evaluasi independen yang dikutip oleh QVAC menunjukkan bahwa model yang dilatih dengan data Genesis II menunjukkan akurasi penalaran yang lebih tinggi dan menghasilkan jawaban yang lebih jelas dibandingkan model yang dilatih pada kumpulan data sintetis sebelumnya.
Penekanan pada Pemahaman, Bukan Kelancaran
Sebagian besar ekosistem pelatihan AI saat ini bergantung pada penyusunan volume teks yang sangat besar, yang sering kali diambil dari sumber publik, untuk meningkatkan kelancaran berbahasa. Tujuan yang dinyatakan QVAC berbeda dalam penekanannya. Dataset Genesis disusun untuk mengajari model cara bernalar melalui masalah dan menjelaskan kesimpulan dengan cara yang jelas.
Pimpinan perusahaan telah menyatakan bahwa maksudnya adalah melampaui sistem pelatihan yang memprediksi urutan teks yang kemungkinan besar, menuju model yang menunjukkan pemahaman atas konsep yang mendasarinya. Desain dataset memprioritaskan kejernihan, kausalitas, dan logika, dengan tujuan mengurangi ambiguitas dalam keluaran model.
Pendekatan ini selaras dengan diskusi yang lebih luas dalam riset AI mengenai keandalan dan keterjelasan (explainability), terutama ketika sistem AI digunakan dalam konteks pendidikan, sains, dan dukungan pengambilan keputusan.
Akses Terbuka untuk Peneliti dan Pengembang
Seperti halnya kumpulan data Genesis asli, QVAC Genesis II dirilis secara terbuka. Kumpulan data tersedia di bawah lisensi Creative Commons Attribution–NonCommercial 4.0, yang memungkinkan peneliti, institusi akademik, dan pengembang independen untuk menggunakan serta mempelajari data tersebut di luar konteks komersial.
Kumpulan data dan model terkait dihosting di Hugging Face, bersama dengan sebuah makalah teknis terperinci yang menguraikan metodologi pembuatan dan hasil evaluasi. Distribusi terbuka ini dimaksudkan untuk menurunkan hambatan bagi peneliti yang tidak memiliki akses ke kumpulan data milik perusahaan (proprietary) dalam skala besar.
Dengan mempertahankan lisensi non-komersial, QVAC bertujuan untuk mendukung riset akademik dan riset yang digerakkan komunitas, sekaligus membatasi eksploitasi komersial langsung.
Mendukung Pengembangan AI yang Terdesentralisasi
Rilis ini juga sesuai dengan strategi yang lebih luas yang ditempuh oleh Tether Data untuk mendorong pengembangan AI yang terdesentralisasi. Perusahaan tersebut menyatakan bahwa data pelatihan berkualitas tinggi tidak seharusnya dibatasi pada organisasi yang memiliki akses ke infrastruktur cloud terpusat.
Dengan menjadikan kumpulan data terstruktur skala besar tersedia secara publik, QVAC berupaya memungkinkan pelatihan lokal, eksperimen, dan penerapan model AI. Pendekatan ini dimaksudkan untuk mendukung lingkungan riset di mana sumber daya komputasi mungkin terbatas, tetapi kontribusi intelektual tetap signifikan.
Penekanan pada desentralisasi mencerminkan meningkatnya minat untuk mengurangi ketergantungan pada sejumlah kecil platform AI dominan dan menumbuhkan ekosistem riset yang lebih terdistribusi.
Peran Tether dalam Riset AI
QVAC beroperasi sebagai divisi riset AI dari Tether Data. Meskipun Tether banyak dikenal karena perannya dalam aset digital dan stablecoin, perusahaan tersebut telah memperluas aktivitasnya ke riset data dan AI dalam beberapa tahun terakhir.
Melalui QVAC, Tether Data telah berfokus pada pembangunan infrastruktur dan sumber daya yang mendukung riset terbuka. Kumpulan data Genesis mewakili salah satu output yang paling terlihat dari upaya tersebut, sehingga memposisikan perusahaan dalam pembahasan seputar pengembangan open AI dan data pelatihan yang berfokus pada pendidikan.
Pekerjaan ini juga mencerminkan meningkatnya tumpang tindih antara perusahaan fintech dan riset AI tingkat lanjut, karena perusahaan teknologi keuangan semakin berinvestasi pada kemampuan data science dan machine learning.
Perspektif Kepemimpinan tentang Rilis
Pimpinan perusahaan telah membingkai rilis Genesis II sebagai langkah menjauh dari pendekatan pelatihan yang hanya memprioritaskan volume. Fokusnya, menurut pernyataan dari tim eksekutif Tether, adalah mengajarkan sistem AI cara bernalar dan menjelaskan, alih-alih sekadar menghasilkan respons yang lancar.
Paolo Ardoino, CEO Tether, telah menekankan bahwa AI yang andal harus didasarkan pada pemahaman mengapa jawaban itu benar. Ia menunjukkan bahwa membuat kumpulan data ini tersedia secara terbuka mencerminkan keyakinan bahwa AI yang lebih kuat dan lebih dapat dijelaskan (explainable) akan memberi manfaat bagi masyarakat secara keseluruhan.
Pandangan ini menggemakan kekhawatiran yang diajukan peneliti tentang keterbatasan model yang terutama dilatih pada teks yang tidak terstruktur.
Cakupan Edukasi dan Koverase Domain
Gabungan dataset Genesis I dan II mencakup 19 domain, dengan konten yang dirancang pada tingkat pendidikan menengah dan tinggi. Subjeknya meliputi matematika dasar, fisika, hingga bidang terapan seperti ekonometrika dan pembelajaran mesin.
Setiap domain berisi pertanyaan terstruktur, penjelasan, dan jalur penalaran yang dimaksudkan untuk meniru cara konsep diajarkan dan dinilai dalam pengaturan pendidikan formal. Desain ini bertujuan mendukung tugas pra-pelatihan yang membutuhkan konsistensi logis dan kedalaman konseptual.
Dengan meregenerasi dan memperluas konten menggunakan metode yang lebih baik, QVAC berupaya menyempurnakan representasi materi pendidikan dalam kumpulan data sintetis.
Evaluasi dan Kinerja Model
Menurut evaluasi internal dan independen yang dirujuk oleh QVAC, model yang dilatih pada data Genesis II menunjukkan peningkatan performa dalam tugas-tugas yang membutuhkan penalaran mendalam. Ini termasuk menjawab pertanyaan terstruktur, menjelaskan kesimpulan, dan menghindari respons yang ambigu atau kontradiktif.
Hasil evaluasi menunjukkan bahwa kombinasi Failure Analysis dan Option-Level Reasoning menghasilkan keluaran yang lebih konsisten. Meskipun perusahaan belum memposisikan dataset ini sebagai solusi tunggal, mereka menganggapnya sebagai fondasi yang kuat untuk pelatihan lanjutan dan penyempurnaan.
Peneliti diharapkan melakukan evaluasi tambahan seiring penggunaan dataset ini secara lebih luas di komunitas.
Implikasi untuk Riset Open AI
Rilis dataset terbuka sebesar ini dapat memengaruhi pendekatan peneliti akademik dan independen terhadap pelatihan model. Akses ke data pendidikan terstruktur dalam skala ini secara tradisional terbatas pada organisasi yang sangat didanai.
Dengan menyediakan alternatif, QVAC Genesis II dapat mendukung eksperimen dengan model yang lebih kecil, pelatihan lokal, dan riset tentang AI yang dapat dijelaskan (explainable AI).
Dataset ini juga berpotensi menjadi tolok ukur (benchmark) untuk proyek data sintetis di masa depan yang mengutamakan kualitas penalaran daripada ukuran semata.
Posisi dalam Ekosistem AI yang Lebih Luas
QVAC Genesis II memasuki ekosistem AI yang berkembang pesat dan terkonsentrasi. Banyak model paling canggih dilatih menggunakan kumpulan data milik perusahaan (proprietary) yang tidak dapat diakses untuk ditinjau atau direplikasi.
Kumpulan data terbuka seperti Genesis II menawarkan alternatif, memungkinkan transparansi dan kemajuan bersama. Mereka juga memunculkan pertanyaan tentang bagaimana sumber daya terbuka dapat bersinergi dengan pengembangan AI komersial.
Keterlibatan perusahaan yang berakar pada fintech dan aset digital menyoroti bagaimana riset AI menarik minat dari berbagai industri di luar perusahaan teknologi tradisional.
Ketersediaan dan Langkah Berikutnya
Dokumentasi teknis lengkap untuk dataset ini, berjudul “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” telah dipublikasikan di blog riset QVAC. Akses ke dataset dan model terkait tersedia melalui Hugging Face.
QVAC menyatakan akan terus menyempurnakan metodologi dan memperluas cakupan edukasi dalam rilis berikutnya. Masukan dari komunitas riset diharapkan membantu membentuk iterasi selanjutnya.
Dukungan Berkelanjutan untuk Fondasi Terbuka
Dengan Genesis II, QVAC menegaskan kembali bahwa data pelatihan terbuka dan terstruktur sangat penting untuk membangun sistem AI yang andal. Rilis ini mencerminkan pandangan bahwa kecerdasan harus didasarkan pada penalaran dan penjelasan, bukan sekadar asosiasi statistik.
Seiring AI semakin terintegrasi ke dalam pendidikan, sains, dan layanan keuangan, termasuk aplikasi fintech, kualitas data pelatihan mereka akan tetap menjadi perhatian utama.
Untuk saat ini, kumpulan data Genesis yang diperluas menjadi kontribusi penting bagi riset open AI, menawarkan skala, struktur, dan aksesibilitas yang jarang terlihat di luar lingkungan milik perusahaan (proprietary).