ByteDance membuka sumber Cola DLM: Mendefinisikan ulang pembuatan teks dengan model difusi

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 16 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim Seed dari ByteDance merilis open source Cola DLM. Ini adalah rangkaian model bahasa difusi kontinu yang berusaha menghindari jalur tetap model bahasa besar yang menghasilkan secara token dari kiri ke kanan, mengubah proses pembuatan teks menjadi terlebih dahulu mengorganisasi makna tingkat tinggi, kemudian kembali ke teks spesifik. Inti dari Cola DLM adalah Text VAE + block-causal DiT. Text VAE pertama memetakan teks diskret ke ruang laten kontinu, sementara block-causal DiT mempelajari prior laten melalui Flow Matching, dan akhirnya decoder kondisional mengembalikan variabel laten menjadi teks. Proses difusi menangani representasi makna laten, bukan secara langsung menghilangkan noise di tingkat token. Versi open source kali ini adalah model tingkat 2B, dengan total sekitar 2,3 miliar parameter, di mana inti DiT memiliki 1,8 miliar parameter, dan tambahan 500 juta parameter VAE. Dalam delapan pengujian seperti LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, dan Story Cloze, makalah menyatakan bahwa model ini telah menunjukkan performa skala yang bersaing dengan baseline AR / LLaDA dalam protokol evaluasi generatif yang seragam, dan mencapai hasil terbaik dalam skor rata-rata akhir. Namun saat ini masih merupakan checkpoint penelitian, bukan model dialog yang langsung dapat digunakan. Penjelasan resmi menyebutkan bahwa model ini belum melalui fine-tuning instruksi dan RLHF, dan penggunaannya utama adalah untuk meneliti bagaimana difusi laten kontinu dapat digunakan dalam pembuatan teks. Makalah juga menampilkan eksperimen awal dalam memperluas model ke penggabungan teks dan gambar, tetapi repositori open source kali ini hanya berisi pipeline teks. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
BreadthHunter
· 4jam yang lalu
8 aspek penilaian menyamakan AR, tapi tanpa RLHF, mungkin dalam penggunaannya masih agak kurang memuaskan
Lihat AsliBalas0
VineGeometry
· 4jam yang lalu
Apakah desain block-causal ini untuk teks panjang atau efisiensi? Jelaskan secara rinci dalam makalah.
Lihat AsliBalas0
GateUser-a4680931
· 4jam yang lalu
Apakah penyebaran dilakukan di lapisan semantik laten, dan apakah kualitas hasilnya bisa lebih stabil daripada AR, menunggu pengujian nyata
Lihat AsliBalas0