Microsoft Membuka Sumber Tiga Versi Model Penyisipan Teks Harrier, Versi 27B Teratas di Multilingual MTEB v2

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan dari 1M AI News, Microsoft telah merilis kode sumber terbuka untuk keluarga model embedding teks multibahasa harrier-oss-v1 di Hugging Face, yang mencakup tiga versi: 270M, 0.6B, dan 27B. Kartu model menunjukkan bahwa seri ini menggunakan arsitektur decoder-only, last-token pooling, dan normalisasi L2, dengan dukungan maksimum 32,768 token. Model ini dapat digunakan untuk retrieval, clustering, semantic similarity, klasifikasi, bilingual mining, dan reordering. Multilingual MTEB v2 adalah tolok ukur yang banyak digunakan untuk embedding teks multibahasa di industri, terutama menguji tugas seperti retrieval, klasifikasi, clustering, dan semantic similarity. Menurut kartu model Microsoft, skor untuk ketiga versi pada tolok ukur ini adalah 66.5, 69.0, dan 74.3, dengan versi 27B mencapai peringkat teratas pada hari saat dirilis. Versi 270M dan 0.6B juga memanfaatkan model embedding yang lebih besar untuk knowledge distillation, dan ketiga model tersebut dirilis di bawah lisensi MIT.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan