Microsoft Membuka Sumber Tiga Versi Model Penyisipan Teks Harrier, Versi 27B Teratas di Multilingual MTEB v2

AirdropBlackHole · 2026-03-30T19:50:16+00:00

Microsoft telah membuka sumber model embedding teks multibahasa harrier-oss-v1 di Hugging Face, menawarkan tiga versi (270M, 0.6B, 27B). Model-model ini mendukung berbagai tugas dan mendapatkan skor yang baik pada benchmark Multilingual MTEB v2.

AirdropBlackHole

2026-03-30 19:50:16

Pembuatan abstrak sedang berlangsung

Menurut pemantauan dari 1M AI News, Microsoft telah merilis kode sumber terbuka untuk keluarga model embedding teks multibahasa harrier-oss-v1 di Hugging Face, yang mencakup tiga versi: 270M, 0.6B, dan 27B. Kartu model menunjukkan bahwa seri ini menggunakan arsitektur decoder-only, last-token pooling, dan normalisasi L2, dengan dukungan maksimum 32,768 token. Model ini dapat digunakan untuk retrieval, clustering, semantic similarity, klasifikasi, bilingual mining, dan reordering. Multilingual MTEB v2 adalah tolok ukur yang banyak digunakan untuk embedding teks multibahasa di industri, terutama menguji tugas seperti retrieval, klasifikasi, clustering, dan semantic similarity. Menurut kartu model Microsoft, skor untuk ketiga versi pada tolok ukur ini adalah 66.5, 69.0, dan 74.3, dengan versi 27B mencapai peringkat teratas pada hari saat dirilis. Versi 270M dan 0.6B juga memanfaatkan model embedding yang lebih besar untuk knowledge distillation, dan ketiga model tersebut dirilis di bawah lisensi MIT.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka