Microsoft open source trois versions de modèles d'intégration de texte Harrier, la version 27B en tête du MTEB multilingue v2

robot
Création du résumé en cours

Selon le suivi par 1M AI News, Microsoft a open-sourcé la famille de modèles d’embeddings de texte multilingues harrier-oss-v1 sur Hugging Face, qui comprend trois versions : 270M, 0.6B et 27B. La fiche du modèle indique que cette série utilise une architecture de type « decoder-only », un « last-token pooling » et une normalisation L2, avec un maximum pris en charge de 32,768 tokens. Elle peut être utilisée pour la recherche (retrieval), le clustering, la similarité sémantique, la classification, le mining bilingue, et le réordonnancement (reordering). Le Multilingual MTEB v2 est un benchmark largement utilisé pour les embeddings de texte multilingues dans l’industrie, testant principalement des tâches telles que la recherche, la classification, le clustering et la similarité sémantique. D’après la fiche du modèle de Microsoft, les scores des trois versions sur ce benchmark sont de 66.5, 69.0 et 74.3, la version 27B atteignant la première place le jour de sa sortie. Les versions 270M et 0.6B utilisent également des modèles d’embeddings plus grands pour la distillation du savoir, et les trois modèles sont publiés sous la licence MIT.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler