Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Tether Memperluas Data Pelatihan Open AI Dengan Rilis Dataset QVAC Genesis II
Temukan berita dan acara fintech teratas!
Berlangganan buletin FinTech Mingguan
Dibaca oleh eksekutif di JP Morgan, Coinbase, Blackrock, Klarna, dan lainnya
Ekspansi Besar dalam Data Pelatihan Open AI
Data Tether telah merilis versi baru dari dataset edukasi sintetis untuk kecerdasan buatan, secara signifikan meningkatkan volume dan cakupan materi pelatihan terbuka yang tersedia untuk peneliti di seluruh dunia. Divisi penelitian AI perusahaan, QVAC, mengumumkan bahwa rilis baru ini, yang disebut QVAC Genesis II, menambahkan 107 miliar token ke dataset sebelumnya, membawa total ukuran menjadi 148 miliar token.
Dataset yang diperluas ini sekarang merupakan sumber edukasi sintetis terbesar yang tersedia untuk publik yang dirancang khusus untuk pra-pelatihan AI. Ini mencakup 19 domain akademis dan dimaksudkan untuk meningkatkan cara model belajar tentang penalaran, penjelasan, dan pengambilan keputusan daripada sekadar pengenalan pola permukaan.
Pengumuman ini memposisikan rilis sebagai langkah menuju pengembangan AI yang lebih transparan dan dapat diakses, pada saat banyak dataset pelatihan canggih tetap terkunci dalam sistem kepemilikan.
Membangun di atas Rilis Genesis Pertama
QVAC Genesis II membangun kerja yang pertama kali diperkenalkan dengan Genesis I, yang fokus pada penciptaan dataset sintetis yang tervalidasi dan berpusat pada pendidikan yang mencakup mata pelajaran sains, teknologi, rekayasa, dan matematika inti. Rilis sebelumnya itu menetapkan kerangka kerja untuk menghasilkan pertanyaan pelatihan terstruktur yang bertujuan untuk meningkatkan akurasi penalaran.
Rilis baru ini memperluas cakupan ke sepuluh bidang tambahan, termasuk kimia, ilmu komputer, statistik, pembelajaran mesin, astronomi, geografi, ekonometrika, dan rekayasa listrik. Ini juga mengunjungi kembali konten fisika tingkat perguruan tinggi, meregenerasinya menggunakan metodologi yang diperbarui yang dirancang untuk meningkatkan kejelasan konseptual.
Bersama-sama, kedua rilis tersebut membentuk apa yang dijelaskan QVAC sebagai dataset edukasi sintetis yang paling luas yang pernah tersedia untuk publik. Dataset ini dimaksudkan untuk digunakan dalam pra-pelatihan model bahasa besar dan sistem AI lainnya yang memerlukan materi akademis terstruktur.
Perubahan dalam Cara Data Pelatihan Dihasilkan
Di inti Genesis II adalah metode penghasilan data baru yang disebut Penalaran Tingkat Opsi. Pendekatan ini berbeda dari banyak teknik data sintetis yang ada dengan tidak hanya fokus pada jawaban yang salah, tetapi juga pada yang benar.
Alih-alih memperlakukan tanggapan yang benar sebagai akhir dari proses, metode ini menganalisis setiap opsi jawaban dalam pertanyaan pilihan ganda. Pilihan yang benar diuraikan untuk memperkuat mengapa mereka benar, sedangkan opsi yang salah diperiksa untuk mengatasi kesalahpahaman umum. Struktur ini memungkinkan model untuk belajar penalaran kausal dan logika keputusan daripada hanya mengaitkan pertanyaan dengan hasil.
Pendekatan ini melengkapi metode Analisis Kegagalan yang diperkenalkan dalam Genesis I, yang fokus pada mengekstrak nilai dari kesalahan model. Bersama-sama, kedua metode ini membentuk saluran di mana setiap pertanyaan yang dihasilkan dirancang untuk memberikan nilai instruksional.
Evaluasi independen yang disebutkan oleh QVAC menunjukkan bahwa model yang dilatih pada data Genesis II menunjukkan akurasi penalaran yang lebih tinggi dan menghasilkan jawaban yang lebih jelas dibandingkan dengan yang dilatih pada dataset sintetis sebelumnya.
Penekanan pada Pemahaman daripada Kelancaran
Sebagian besar ekosistem pelatihan AI saat ini bergantung pada pengumpulan volume teks yang sangat besar, sering kali diambil dari sumber publik, untuk meningkatkan kelancaran bahasa. Tujuan yang dinyatakan QVAC berbeda dalam penekanan. Dataset Genesis dirancang untuk mengajarkan model bagaimana cara berpikir melalui masalah dan menjelaskan kesimpulan dengan cara yang jelas.
Kepemimpinan perusahaan telah menunjukkan bahwa niatnya adalah untuk bergerak melampaui sistem pelatihan yang memprediksi urutan teks yang mungkin, menuju model yang menunjukkan pemahaman tentang konsep dasar. Desain dataset memprioritaskan kejelasan, kausalitas, dan logika, bertujuan untuk mengurangi ambiguitas dalam keluaran model.
Pendekatan ini sejalan dengan diskusi yang lebih luas dalam penelitian AI tentang keandalan dan keterjelasan, terutama karena sistem AI digunakan dalam pendidikan, sains, dan konteks dukungan keputusan.
Akses Terbuka untuk Peneliti dan Pengembang
Seperti dengan dataset Genesis asli, QVAC Genesis II dirilis secara terbuka. Dataset ini tersedia di bawah lisensi Creative Commons Attribution–NonCommercial 4.0, yang memungkinkan peneliti, institusi akademis, dan pengembang independen untuk menggunakan dan mempelajari data di luar pengaturan komersial.
Dataset dan model terkait dihosting di Hugging Face, bersama dengan makalah teknis terperinci yang menguraikan metodologi penghasilan dan hasil evaluasi. Distribusi terbuka ini dimaksudkan untuk menurunkan hambatan bagi peneliti yang tidak memiliki akses ke dataset besar yang bersifat kepemilikan.
Dengan mempertahankan lisensi non-komersial, QVAC bertujuan untuk mendukung penelitian akademis dan berbasis komunitas sambil membatasi eksploitasi komersial langsung.
Mendukung Pengembangan AI Terdesentralisasi
Rilis ini juga sesuai dengan strategi yang lebih luas yang diupayakan oleh Tether Data untuk mendorong pengembangan AI terdesentralisasi. Perusahaan telah menyatakan bahwa data pelatihan berkualitas tinggi tidak boleh dibatasi untuk organisasi yang memiliki akses ke infrastruktur cloud terpusat.
Dengan membuat dataset terstruktur berskala besar tersedia untuk publik, QVAC berupaya memungkinkan pelatihan lokal, eksperimen, dan penerapan model AI. Pendekatan ini dimaksudkan untuk mendukung lingkungan penelitian di mana sumber daya komputasi mungkin terbatas tetapi kontribusi intelektual tetap signifikan.
Penekanan pada desentralisasi mencerminkan minat yang berkembang dalam mengurangi ketergantungan pada sejumlah kecil platform AI dominan dan mendorong ekosistem penelitian yang lebih terdistribusi.
Peran Tether dalam Penelitian AI
QVAC beroperasi sebagai divisi penelitian AI dari Tether Data. Sementara Tether dikenal luas karena perannya dalam aset digital dan stablecoin, perusahaan telah memperluas aktivitasnya ke dalam penelitian data dan AI dalam beberapa tahun terakhir.
Melalui QVAC, Tether Data telah fokus pada pembangunan infrastruktur dan sumber daya yang mendukung penelitian terbuka. Dataset Genesis merupakan salah satu hasil yang paling terlihat dari upaya tersebut, memposisikan perusahaan dalam diskusi seputar pengembangan AI terbuka dan data pelatihan yang berfokus pada pendidikan.
Pekerjaan ini juga mencerminkan tumpang tindih yang semakin besar antara perusahaan fintech dan penelitian AI canggih, karena perusahaan teknologi keuangan semakin berinvestasi dalam kemampuan ilmu data dan pembelajaran mesin.
Perspektif Kepemimpinan tentang Rilis
Kepemimpinan perusahaan telah memposisikan rilis Genesis II sebagai langkah menjauh dari pendekatan pelatihan yang mengutamakan volume semata. Fokus, menurut pernyataan dari tim eksekutif Tether, adalah pada mengajarkan sistem AI bagaimana cara berpikir dan menjelaskan daripada sekadar menghasilkan tanggapan yang lancar.
Paolo Ardoino, kepala eksekutif Tether, telah menekankan bahwa AI yang dapat diandalkan harus didasarkan pada pemahaman mengapa jawaban itu benar. Ia menunjukkan bahwa membuat dataset ini tersedia secara terbuka mencerminkan keyakinan bahwa AI yang lebih kuat dan lebih dapat dijelaskan menguntungkan masyarakat secara keseluruhan.
Pandangan ini mencerminkan kekhawatiran yang diangkat oleh peneliti tentang keterbatasan model yang dilatih terutama pada teks yang tidak terstruktur.
Cakupan Pendidikan dan Cakupan Domain
Dataset gabungan Genesis I dan II mencakup 19 domain, dengan konten yang dirancang pada tingkat pendidikan menengah dan perguruan tinggi. Subjek berkisar dari matematika dan fisika dasar hingga bidang terapan seperti ekonometrika dan pembelajaran mesin.
Setiap domain mencakup pertanyaan terstruktur, penjelasan, dan jalur penalaran yang dimaksudkan untuk mencerminkan bagaimana konsep diajarkan dan dinilai dalam pengaturan pendidikan formal. Desain ini dimaksudkan untuk mendukung tugas pra-pelatihan yang memerlukan konsistensi logis dan kedalaman konseptual.
Dengan meregenerasi dan memperluas konten menggunakan metode yang lebih baik, QVAC bertujuan untuk memperbaiki cara materi edukasi direpresentasikan dalam dataset sintetis.
Evaluasi dan Kinerja Model
Menurut evaluasi internal dan independen yang dirujuk oleh QVAC, model yang dilatih pada data Genesis II menunjukkan kinerja yang lebih baik dalam tugas-tugas yang banyak menggunakan penalaran. Ini termasuk menjawab pertanyaan terstruktur, menjelaskan kesimpulan, dan menghindari tanggapan yang ambigu atau kontradiktif.
Hasil evaluasi menunjukkan bahwa kombinasi Analisis Kegagalan dan Penalaran Tingkat Opsi menghasilkan keluaran yang lebih konsisten. Sementara perusahaan tidak memposisikan dataset ini sebagai solusi mandiri, mereka telah menyajikannya sebagai fondasi yang kuat untuk pelatihan dan penyempurnaan lebih lanjut.
Peneliti diharapkan melakukan evaluasi tambahan seiring dataset ini digunakan lebih luas dalam komunitas.
Implikasi untuk Penelitian AI Terbuka
Rilis dataset terbuka yang besar ini mungkin memengaruhi bagaimana peneliti akademis dan independen mendekati pelatihan model. Akses ke data edukasi terstruktur dalam skala ini secara tradisional terbatas pada organisasi yang memiliki dana besar.
Dengan menyediakan alternatif, QVAC Genesis II dapat mendukung eksperimen dengan model yang lebih kecil, upaya pelatihan lokal, dan penelitian tentang metode AI yang dapat dijelaskan.
Dataset ini juga dapat berfungsi sebagai tolok ukur untuk proyek data sintetis di masa depan yang mengutamakan kualitas penalaran daripada ukuran semata.
Posisi dalam Ekosistem AI yang Lebih Luas
QVAC Genesis II memasuki ekosistem AI yang ditandai oleh perkembangan cepat dan konsentrasi sumber daya yang meningkat. Banyak dari model paling mampu dilatih pada dataset kepemilikan yang tidak dapat diakses untuk ditinjau atau direplikasi.
Dataset terbuka seperti Genesis II menawarkan sudut pandang yang berlawanan, memungkinkan transparansi dan kemajuan bersama. Mereka juga menimbulkan pertanyaan tentang bagaimana sumber daya terbuka dapat berdampingan dengan perkembangan AI komersial.
Keterlibatan perusahaan yang berakar dalam fintech dan aset digital menyoroti bagaimana penelitian AI menarik minat dari berbagai industri di luar perusahaan teknologi tradisional.
Ketersediaan dan Langkah Selanjutnya
Dokumentasi teknis lengkap untuk dataset, yang berjudul “QVAC Genesis II: Memperluas Dataset Sintetis Edukasi Multi-domain Terbesar dan Terbaik untuk Pra-pelatihan,” telah diterbitkan di blog penelitian QVAC. Akses ke dataset dan model terkait tersedia melalui Hugging Face.
QVAC telah menunjukkan bahwa mereka berencana untuk terus menyempurnakan metodologi mereka dan memperluas cakupan edukasi dalam rilis-rilis mendatang. Umpan balik dari komunitas penelitian diharapkan akan memainkan peran dalam membentuk iterasi selanjutnya.
Dorongan Berkelanjutan untuk Fondasi Terbuka
Dengan Genesis II, QVAC memperkuat posisinya bahwa data pelatihan yang terbuka dan terstruktur sangat penting untuk membangun sistem AI yang dapat diandalkan. Rilis ini mencerminkan pandangan bahwa kecerdasan harus didasarkan pada penalaran dan penjelasan, bukan hanya asosiasi statistik.
Seiring sistem AI semakin terintegrasi ke dalam pendidikan, sains, dan layanan keuangan, termasuk aplikasi fintech, kualitas data pelatihan mereka akan tetap menjadi perhatian utama.
Untuk saat ini, dataset Genesis yang diperluas berdiri sebagai kontribusi yang signifikan untuk penelitian AI terbuka, menawarkan skala, struktur, dan aksesibilitas pada tingkat yang jarang terlihat di luar lingkungan kepemilikan.