Microsoft open source trois versions de modèles d'intégration de texte Harrier, la version 27B en tête du MTEB multilingue v2

AirdropBlackHole · 2026-03-30T19:50:16+00:00

Microsoft a rendu open source les modèles d'intégration de texte multilingue harrier-oss-v1 sur Hugging Face, proposant trois versions (270M, 0.6B, 27B). Ces modèles prennent en charge diverses tâches et ont obtenu de bons résultats sur le benchmark Multilingual MTEB v2.

AirdropBlackHole

2026-03-30 19:50:16

Création du résumé en cours

Selon le suivi par 1M AI News, Microsoft a open-sourcé la famille de modèles d’embeddings de texte multilingues harrier-oss-v1 sur Hugging Face, qui comprend trois versions : 270M, 0.6B et 27B. La fiche du modèle indique que cette série utilise une architecture de type « decoder-only », un « last-token pooling » et une normalisation L2, avec un maximum pris en charge de 32,768 tokens. Elle peut être utilisée pour la recherche (retrieval), le clustering, la similarité sémantique, la classification, le mining bilingue, et le réordonnancement (reordering). Le Multilingual MTEB v2 est un benchmark largement utilisé pour les embeddings de texte multilingues dans l’industrie, testant principalement des tâches telles que la recherche, la classification, le clustering et la similarité sémantique. D’après la fiche du modèle de Microsoft, les scores des trois versions sur ce benchmark sont de 66.5, 69.0 et 74.3, la version 27B atteignant la première place le jour de sa sortie. Les versions 270M et 0.6B utilisent également des modèles d’embeddings plus grands pour la distillation du savoir, et les trois modèles sont publiés sous la licence MIT.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime