Microsoft open-sources the three-tier Harrier text embedding models; the 27B version tops the multilingual MTEB v2 leaderboard.

robot
Generación de resúmenes en curso

Según el monitoreo de 1M AI News, Microsoft, en la familia de modelos de incrustación (text embeddings) multilingües de código abierto harrier-oss-v1 en Hugging Face, incluye tres versiones: 270M, 0.6B y 27B. La ficha del modelo muestra que esta serie utiliza una arquitectura solo-decodificador (decoder-only), pooling del último token (last-token pooling) y normalización L2; la longitud máxima admitida es de 32768 tokens, y puede usarse para recuperación, clustering, similitud semántica, clasificación, minería bilingüe y re-ranking.

Multilingual MTEB v2 es un punto de referencia de incrustación de texto multilingüe de uso común en la industria; principalmente evalúa tareas como recuperación, clasificación, clustering y similitud semántica. La ficha del modelo de Microsoft afirma que, en este benchmark, las puntuaciones de las tres versiones son 66.5, 69.0 y 74.3, respectivamente, y que la versión de 27B llegó al primer puesto el día de su lanzamiento. Las versiones de 270M y 0.6B también usan adicionalmente un modelo de incrustación más grande para la destilación de conocimiento; los tres modelos se publican bajo la licencia MIT.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado