Microsoft merilis model embedding teks Harrier tiga tingkat sumber terbuka, versi 27B menduduki peringkat teratas di daftar MTEB v2 multibahasa

robot
Pembuatan abstrak sedang berlangsung

Berdasarkan pemantauan 1M AI News, Microsoft merilis keluarga model embedding teks multi-bahasa open source di Hugging Face bernama harrier-oss-v1, yang mencakup tiga tingkatan: 270M, 0.6B, dan 27B. Kartu model menunjukkan bahwa rangkaian ini menggunakan arsitektur decoder-only, last-token pooling, dan normalisasi L2, dengan dukungan maksimum 32768 token, serta dapat digunakan untuk penelusuran (retrieval), clustering, kemiripan semantik, klasifikasi, penambangan dwibahasa, dan reranking.

Multilingual MTEB v2 adalah tolok ukur embedding teks multi-bahasa yang umum digunakan di industri, terutama menguji tugas seperti penelusuran, klasifikasi, clustering, dan kemiripan semantik. Kartu model Microsoft menyatakan bahwa skor ketiga tingkatan model pada tolok ukur tersebut masing-masing adalah 66.5, 69.0, dan 74.3, dengan varian 27B menempati posisi teratas pada hari peluncurannya. Versi 270M dan 0.6B juga secara tambahan menggunakan model embedding yang lebih besar untuk knowledge distillation, dan ketiga model dirilis dengan lisensi MIT.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan