Tether Memperluas Data Pelatihan Open AI Dengan Rilis Dataset QVAC Genesis II

SleepTrader

2026-04-01 09:14:11

Temukan berita dan acara fintech teratas!

Berlangganan buletin FinTech Weekly

Dibaca oleh eksekutif di JP Morgan, Coinbase, Blackrock, Klarna, dan lainnya

Ekspansi Besar dalam Data Pelatihan Open AI

Tether Data telah merilis versi baru dari kumpulan data edukasi sintetisnya untuk kecerdasan buatan, secara signifikan meningkatkan volume dan cakupan materi pelatihan terbuka yang tersedia untuk peneliti di seluruh dunia. Divisi riset AI perusahaan, QVAC, mengumumkan bahwa rilis baru, yang disebut QVAC Genesis II, menambahkan 107 miliar token ke kumpulan data sebelumnya, sehingga total ukurannya menjadi 148 miliar token.

Kumpulan data yang diperluas kini menjadi sumber edukasi sintetis publik terbesar yang dirancang khusus untuk pra-pelatihan AI. Kumpulan ini mencakup 19 domain akademik dan dimaksudkan untuk meningkatkan cara model belajar penalaran, penjelasan, dan pengambilan keputusan, bukan sekadar pengenalan pola pada level permukaan.

Pengumuman tersebut memposisikan rilis ini sebagai langkah menuju pengembangan AI yang lebih transparan dan mudah diakses, pada saat banyak kumpulan data pelatihan lanjutan masih terkunci di dalam sistem milik perusahaan.

Bertumpu pada Rilis Genesis Pertama

QVAC Genesis II dibangun di atas pekerjaan yang pertama kali diperkenalkan dengan Genesis I, yang berfokus pada pembuatan kumpulan data sintetis yang tervalidasi dan berpusat pada pendidikan, mencakup mata pelajaran inti ilmu pengetahuan, teknologi, teknik, dan matematika. Rilis terdahulu itu menetapkan kerangka untuk menghasilkan pertanyaan pelatihan terstruktur yang bertujuan meningkatkan akurasi penalaran.

Rilis baru memperluas cakupan ke sepuluh bidang tambahan, termasuk kimia, ilmu komputer, statistik, machine learning, astronomi, geografi, ekonometrika, dan teknik elektro. Rilis ini juga meninjau kembali konten fisika tingkat perguruan tinggi, dengan meregenerasinya menggunakan metodologi yang diperbarui yang dirancang untuk meningkatkan kejernihan konseptual.

Bersama-sama, kedua rilis tersebut membentuk apa yang dijelaskan QVAC sebagai kumpulan data edukasi sintetis paling ekstensif yang pernah tersedia untuk publik. Kumpulan data ini dimaksudkan untuk digunakan dalam pra-pelatihan model bahasa besar dan sistem AI lainnya yang memerlukan materi akademik terstruktur.

Perubahan dalam Cara Data Pelatihan Dihasilkan

Inti Genesis II adalah metode generasi data baru yang disebut Option-Level Reasoning. Pendekatan ini berbeda dari banyak teknik data sintetis yang ada, karena tidak hanya berfokus pada jawaban yang salah, tetapi juga pada jawaban yang benar.

Alih-alih memperlakukan respons yang benar sebagai akhir proses, metode ini menganalisis setiap opsi jawaban dalam soal pilihan ganda. Pilihan yang benar diuraikan untuk memperkuat alasan mengapa jawaban tersebut benar, sementara opsi yang salah diperiksa untuk mengatasi miskonsepsi umum. Struktur ini memungkinkan model untuk mempelajari penalaran kausal dan logika pengambilan keputusan, bukan sekadar mengaitkan pertanyaan dengan hasil.

Pendekatan ini melengkapi metode Failure Analysis yang diperkenalkan pada Genesis I, yang berfokus pada pengambilan nilai dari kesalahan model. Bersama, kedua metode ini membentuk sebuah pipeline di mana setiap pertanyaan yang dihasilkan dirancang untuk memberikan nilai instruksional.

Evaluasi independen yang dikutip oleh QVAC menunjukkan bahwa model yang dilatih dengan data Genesis II memiliki akurasi penalaran yang lebih tinggi dan menghasilkan jawaban yang lebih jelas dibandingkan model yang dilatih dengan kumpulan data sintetis sebelumnya.

Penekanan pada Pemahaman, Bukan Kelancaran

Sebagian besar ekosistem pelatihan AI saat ini bergantung pada penyusunan volume teks yang sangat besar, sering kali disalin dari sumber publik, untuk meningkatkan kelancaran bahasa. Tujuan yang dinyatakan oleh QVAC berbeda dalam penekanannya. Dataset Genesis disusun untuk mengajari model cara bernalar melalui masalah dan menjelaskan kesimpulan dengan cara yang jelas.

Pimpinan perusahaan telah menyatakan bahwa tujuannya adalah melampaui sistem pelatihan yang memprediksi urutan teks yang mungkin, menuju model yang menunjukkan pemahaman terhadap konsep yang mendasarinya. Desain dataset memprioritaskan kejernihan, kausalitas, dan logika, dengan tujuan mengurangi ambiguitas dalam keluaran model.

Pendekatan ini sejalan dengan diskusi yang lebih luas dalam riset AI mengenai keandalan dan kemampuan untuk dijelaskan (explainability), terutama saat sistem AI digunakan dalam pendidikan, sains, dan konteks pendukung pengambilan keputusan.

Akses Terbuka untuk Peneliti dan Pengembang

Seperti pada kumpulan data Genesis versi asli, QVAC Genesis II juga dirilis secara terbuka. Kumpulan data tersedia di bawah lisensi Creative Commons Attribution–NonCommercial 4.0, yang memungkinkan peneliti, institusi akademik, dan pengembang independen untuk menggunakan dan mempelajari data di luar pengaturan komersial.

Kumpulan data dan model terkait dihosting di Hugging Face, bersama dengan paper teknis terperinci yang menguraikan metodologi generasi dan hasil evaluasi. Distribusi terbuka ini dimaksudkan untuk menurunkan hambatan bagi peneliti yang tidak memiliki akses ke kumpulan data milik perusahaan yang besar.

Dengan mempertahankan lisensi non-komersial, QVAC bertujuan untuk mendukung riset akademik dan komunitas yang digerakkan bersama, sembari membatasi eksploitasi komersial langsung.

Mendukung Pengembangan AI yang Terdesentralisasi

Rilis ini juga sesuai dengan strategi yang lebih luas yang dijalankan Tether Data untuk mendorong pengembangan AI yang terdesentralisasi. Perusahaan telah menyatakan bahwa data pelatihan berkualitas tinggi tidak seharusnya dibatasi pada organisasi yang memiliki akses ke infrastruktur cloud terpusat.

Dengan membuat kumpulan data terstruktur skala besar tersedia untuk publik, QVAC berupaya memungkinkan pelatihan lokal, eksperimen, dan penerapan model AI. Pendekatan ini dimaksudkan untuk mendukung lingkungan riset di mana sumber daya komputasi mungkin terbatas, tetapi kontribusi intelektual tetap signifikan.

Penekanan pada desentralisasi mencerminkan meningkatnya minat untuk mengurangi ketergantungan pada sejumlah kecil platform AI dominan dan mendorong ekosistem riset yang lebih terdistribusi.

Peran Tether dalam Riset AI

QVAC beroperasi sebagai divisi riset AI dari Tether Data. Meski Tether dikenal luas karena perannya dalam aset digital dan stablecoin, perusahaan telah memperluas aktivitasnya ke riset data dan AI dalam beberapa tahun terakhir.

Melalui QVAC, Tether Data berfokus pada pembangunan infrastruktur dan sumber daya yang mendukung riset terbuka. Dataset Genesis adalah salah satu output yang paling terlihat dari upaya tersebut, memposisikan perusahaan dalam diskusi seputar pengembangan Open AI dan data pelatihan yang berfokus pada pendidikan.

Pekerjaan ini juga mencerminkan tumpang tindih yang makin besar antara perusahaan fintech dan riset AI lanjutan, karena perusahaan teknologi finansial semakin berinvestasi pada kemampuan sains data dan machine learning.

Perspektif Kepemimpinan tentang Rilis

Pimpinan perusahaan telah membingkai rilis Genesis II sebagai langkah menjauh dari pendekatan pelatihan yang hanya memprioritaskan volume. Fokusnya, menurut pernyataan dari tim eksekutif Tether, adalah mengajari sistem AI cara bernalar dan menjelaskan, bukan sekadar menghasilkan respons yang fasih.

Paolo Ardoino, CEO Tether, telah menekankan bahwa AI yang andal harus didasarkan pada pemahaman mengapa jawaban itu benar. Ia juga menyatakan bahwa membuat kumpulan data tersedia secara terbuka mencerminkan keyakinan bahwa AI yang lebih kuat dan lebih mudah dijelaskan akan memberi manfaat bagi masyarakat secara keseluruhan.

Pandangan ini sejalan dengan kekhawatiran yang disampaikan peneliti tentang keterbatasan model yang terutama dilatih pada teks yang tidak terstruktur.

Cakupan Edukasi dan Liputan Domain

Kumpulan data gabungan Genesis I dan II mencakup 19 domain, dengan konten yang dirancang pada level pendidikan menengah dan tinggi. Mata pelajaran berkisar dari matematika dan fisika dasar hingga bidang terapan seperti ekonometrika dan machine learning.

Setiap domain mencakup pertanyaan terstruktur, penjelasan, dan jalur penalaran yang dimaksudkan untuk meniru cara konsep diajarkan dan dinilai dalam lingkungan pendidikan formal. Desain ini dimaksudkan untuk mendukung tugas pra-pelatihan yang memerlukan konsistensi logis dan kedalaman konseptual.

Dengan meregenerasi dan memperluas konten menggunakan metode yang ditingkatkan, QVAC bertujuan untuk menyempurnakan cara materi edukasi direpresentasikan dalam kumpulan data sintetis.

Evaluasi dan Kinerja Model

Menurut evaluasi internal dan independen yang dirujuk oleh QVAC, model yang dilatih pada data Genesis II menunjukkan kinerja yang lebih baik pada tugas-tugas yang sarat penalaran. Ini mencakup menjawab pertanyaan terstruktur, menjelaskan kesimpulan, dan menghindari respons yang ambigu atau kontradiktif.

Hasil evaluasi menunjukkan bahwa kombinasi Failure Analysis dan Option-Level Reasoning menghasilkan keluaran yang lebih konsisten. Meskipun perusahaan tidak memposisikan kumpulan data sebagai solusi berdiri sendiri, mereka telah menyajikannya sebagai fondasi kuat untuk pelatihan lanjutan dan fine-tuning.

Para peneliti diharapkan melakukan evaluasi tambahan seiring kumpulan data ini semakin luas digunakan di komunitas.

Implikasi bagi Riset Open AI

Rilis kumpulan data terbuka yang sangat besar seperti ini dapat memengaruhi cara peneliti akademik dan independen mendekati pelatihan model. Akses ke data edukasi terstruktur pada skala ini secara tradisional terbatas pada organisasi yang didanai dengan baik.

Dengan menyediakan alternatif, QVAC Genesis II dapat mendukung eksperimen dengan model yang lebih kecil, upaya pelatihan yang terlokalisasi, dan riset mengenai metode AI yang dapat dijelaskan (explainable AI).

Kumpulan data ini juga dapat berfungsi sebagai tolok ukur untuk proyek-proyek data sintetis di masa depan yang memprioritaskan kualitas penalaran dibandingkan sekadar ukuran yang besar.

Posisi dalam Ekosistem AI yang Lebih Luas

QVAC Genesis II masuk ke ekosistem AI yang ditandai dengan pengembangan yang cepat dan meningkatnya konsentrasi sumber daya. Banyak model yang paling mampu dilatih pada kumpulan data milik perusahaan yang tidak dapat diakses untuk ditinjau atau direplikasi.

Kumpulan data terbuka seperti Genesis II menawarkan kontra-poin, memungkinkan transparansi dan kemajuan bersama. Mereka juga memunculkan pertanyaan tentang bagaimana sumber daya terbuka dapat hidup berdampingan dengan pengembangan AI komersial.

Keterlibatan sebuah perusahaan yang berakar pada fintech dan aset digital menyoroti bagaimana riset AI menarik minat dari beragam industri di luar perusahaan teknologi tradisional.

Ketersediaan dan Langkah Berikutnya

Dokumentasi teknis lengkap untuk kumpulan data tersebut, berjudul “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” telah dipublikasikan di blog riset QVAC. Akses ke kumpulan data dan model terkait tersedia melalui Hugging Face.

QVAC telah mengindikasikan bahwa mereka berencana untuk terus menyempurnakan metodenya dan memperluas cakupan pendidikan pada rilis-rilis berikutnya. Masukan dari komunitas riset diharapkan berperan dalam membentuk iterasi selanjutnya.

Dorongan Berkelanjutan untuk Fondasi yang Terbuka

Dengan Genesis II, QVAC memperkuat posisinya bahwa data pelatihan terbuka dan terstruktur sangat penting untuk membangun sistem AI yang andal. Rilis ini mencerminkan pandangan bahwa kecerdasan harus didasarkan pada penalaran dan penjelasan, bukan sekadar asosiasi statistik.

Seiring sistem AI semakin terintegrasi ke dalam pendidikan, sains, dan layanan keuangan, termasuk aplikasi fintech, kualitas data pelatihan mereka akan tetap menjadi perhatian utama.

Untuk saat ini, kumpulan data Genesis yang diperluas berdiri sebagai kontribusi yang menonjol bagi riset Open AI, menawarkan skala, struktur, dan aksesibilitas pada tingkat yang jarang terlihat di luar lingkungan milik perusahaan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
AprilMarketOutlook
331.5K Popularitas
#
CryptoMarketsRiseBroadly
59.08K Popularitas
#
IsraelStrikesIranBTCPlunges
19.84K Popularitas
#
GoldSilverRally
338.29K Popularitas
#
ClaudeCode500KCodeLeak
808.54K Popularitas

Hot Gate Fun
Lihat Lebih Banyak

1
bababoyi
bababoyi
MC:$2.26KHolder:1
0.00%
2
APRIL
APRILIA
MC:$2.26KHolder:1
0.00%
3
mtt
mtt sports
MC:$0.1Holder:1
0.00%
4
PYL
Pylora
MC:$2.26KHolder:0
0.00%
5
TT
TRUMP TOWER
MC:$2.26KHolder:1
0.00%

Sematkan

peta situs

Tether Memperluas Data Pelatihan Open AI Dengan Rilis Dataset QVAC Genesis II

Ekspansi Besar dalam Data Pelatihan Open AI

Bertumpu pada Rilis Genesis Pertama

Perubahan dalam Cara Data Pelatihan Dihasilkan

Penekanan pada Pemahaman, Bukan Kelancaran

Akses Terbuka untuk Peneliti dan Pengembang

Mendukung Pengembangan AI yang Terdesentralisasi

Peran Tether dalam Riset AI

Perspektif Kepemimpinan tentang Rilis

Cakupan Edukasi dan Liputan Domain

Evaluasi dan Kinerja Model

Implikasi bagi Riset Open AI

Posisi dalam Ekosistem AI yang Lebih Luas

Ketersediaan dan Langkah Berikutnya

Dorongan Berkelanjutan untuk Fondasi yang Terbuka

Topik Trending

AprilMarketOutlook

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

GoldSilverRally

ClaudeCode500KCodeLeak

Hot Gate Fun

bababoyi

bababoyi

APRIL

APRILIA

mtt

mtt sports

PYL

Pylora

TT

TRUMP TOWER

Sematkan