Microsoft open-source le modèle d'intégration de texte Harrier à trois niveaux, la version 27B, en tête du classement multilingue MTEB v2

robot
Création du résumé en cours

Actualités de CoinWang : selon la surveillance de 1M AI News, Microsoft a publié sur Hugging Face une famille de modèles d’embeddings de texte multilingues appelée harrier-oss-v1, comprenant trois tailles : 270M, 0,6B et 27B. La fiche du modèle indique que cette série utilise une architecture de type decoder-only, un last-token pooling et une normalisation L2. Elle prend en charge jusqu’à 32 768 tokens et peut être utilisée pour la recherche, la classification en clusters, la similarité sémantique, la classification, l’extraction bilingue et le re-ranking. Multilingual MTEB v2 est un benchmark d’embeddings de texte multilingues couramment utilisé dans l’industrie ; il teste principalement des tâches telles que la recherche, la classification, la mise en clusters et la similarité sémantique. Selon la fiche du modèle Microsoft, les scores des trois versions sur ce benchmark sont respectivement de 66,5, 69,0 et 74,3, la version 27B ayant atteint la première place le jour de sa publication. Les versions 270M et 0,6B utilisent en outre un modèle d’embeddings plus grand pour réaliser une distillation des connaissances. Les trois modèles sont publiés sous licence MIT.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler