Microsoft abre el código de tres versiones de modelos de incrustación de texto Harrier, la versión 27B lidera en Multilingual MTEB v2

robot
Generación de resúmenes en curso

Según la supervisión de 1M AI News, Microsoft ha lanzado de forma open source la familia de modelos de incrustación (text embedding) multilingües harrier-oss-v1 en Hugging Face, que incluye tres versiones: 270M, 0.6B y 27B. La ficha del modelo indica que esta serie emplea una arquitectura solo decodificador, agrupación por el último token y normalización L2, con un máximo de 32,768 tokens. Se puede usar para recuperación (retrieval), clustering (agrupamiento), similitud semántica, clasificación, minería bilingüe y reordenamiento. El Multilingual MTEB v2 es un benchmark ampliamente utilizado para incrustaciones de texto multilingües en la industria, que principalmente evalúa tareas como recuperación, clasificación, clustering y similitud semántica. Según la ficha del modelo de Microsoft, las puntuaciones de las tres versiones en este benchmark son 66.5, 69.0 y 74.3, y la versión 27B alcanzó el primer puesto el día de su lanzamiento. Las versiones 270M y 0.6B también utilizan modelos de incrustación más grandes para destilación del conocimiento, y los tres modelos se publican bajo la licencia MIT.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado