Arsitektur MoE jarang, 25B parameter aktif menghemat daya komputasi hingga ke inti hati

Lihat Asli
CoinNetwork
Cohere sumber terbuka Command A+:Model besar MoE dengan 218B parameter, fokus pada Agen tingkat perusahaan dan kedaulatan data
Cohere secara resmi merilis model campuran ahli jarang dengan 218 miliar parameter Command A+ yang bersifat open source, menggunakan lisensi Apache 2.0, ditujukan untuk agen tingkat perusahaan dan deployment privat, menekankan kedaulatan data dan isolasi fisik. Dengan total 218B, aktivasi inferensi tunggal adalah 25B; dapat dijalankan hanya dengan dua H100 atau satu B200, Hugging Face menyediakan versi dengan presisi rendah seperti W4A4. Command A+ secara native mendukung input multimodal, konteks input 128K, panjang output 64K, untuk alur kerja yang kompleks seperti inferensi rumit, panggilan alat mandiri, kueri basis data, dan dokumen panjang, serta mendukung 48 bahasa (termasuk bahasa resmi UE).
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan