128 kartu A100 dari nol pelatihan keluar! Byte merilis model multimodal serba bisa 3B open-source Lance

ME News Berita, 19 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, ByteDance Research secara resmi merilis sumber terbuka model multimodal tunggal asli Lance. Ini adalah model ringan dengan hanya 3B parameter aktif, yang mendukung pemahaman, generasi, dan pengeditan gambar serta video secara bersamaan dalam satu kerangka kerja. Saat ini, model tunggal utama sangat bergantung pada peningkatan skala parameter atau menggunakan arsitektur teks-gambar, sementara Lance menjalankan jalur kolaborasi dengan daya komputasi yang sangat rendah. Tim pengembangan melatih model sepenuhnya dari nol dan membatasi total anggaran komputasi selama seluruh siklus pelatihan hingga 128 GPU A100. Untuk mengatasi konflik internal antar modalitas dan tugas yang berbeda, Lance melakukan dua isolasi keras pada arsitekturnya: - Menggunakan arsitektur ahli campuran dua aliran (MoE) untuk memproses urutan multimodal yang saling terkait, sambil berbagi konteks dasar, dan memisahkan jalur komputasi untuk pemahaman dan generasi. - Memperkenalkan encoding posisi rotasi yang peka terhadap modalitas, secara langsung mengurangi gangguan sinyal antara token visual heterogen dari gambar dan video. Kompresi daya komputasi yang ekstrem tidak menurunkan batas performa. Dengan hanya 3B parameter aktif, performa generasi dan pengeditan gambar serta video Lance unggul dalam sebagian besar pengujian standar dibandingkan model tunggal sumber terbuka lainnya, dan melalui kolaborasi multi-tugas, berhasil menjalankan jalur biaya rendah yang menggabungkan generasi dan pemahaman semantik dengan parameter kecil. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan