Microsoft open source del modelo de incrustación Harrier, liderando la lista de clasificación MTEB multilingüe, con una gran ventaja sobre OpenAI y Google

robot
Generación de resúmenes en curso

Noticias de Coin World: el equipo de Microsoft Bing ha publicado como código abierto la serie de modelos de incrustación Harrier. Los modelos de incrustación son un componente subyacente de los motores de búsqueda y de los sistemas RAG, y se encargan de convertir el texto en vectores para permitir la recuperación y la coincidencia; su calidad determina directamente si un sistema de IA puede encontrar la información correcta. La versión insignia Harrier-OSS-v1-27B logra un promedio de 74.3 en el benchmark multilingüe MTEB v2 (que abarca 131 tareas), superando en 2 puntos porcentuales la mejor puntuación previa de un modelo abierto y quedando en el primer lugar. En comparación con modelos cerrados, la ventaja es aún mayor: OpenAI text-embedding-3-large obtiene un promedio de 58.92, Google Gemini Embedding 2 es de 69.9 y Amazon Titan Embed v2 es de 60.37. Al mismo tiempo, publican como código abierto dos versiones ligeras para su despliegue en escenarios de baja capacidad de cómputo: 1. Versión de 0.6B parámetros: promedio 69.0, puesto 10 en el ranking; ya supera a Google Gemini Embedding 1 (68.33). 2. Versión de 270M parámetros: promedio 66.5, puesto 15 en el ranking; con el menor tamaño, supera a la vez a tres versiones de modelos cerrados de OpenAI y Amazon. Ambos modelos de código abierto admiten más de 100 idiomas y una ventana de contexto de 32K. Los datos de entrenamiento incluyen más de 2 mil millones de pares de textos de supervisión débil (para el preentrenamiento comparativo) y 10 millones de muestras de alta calidad (para el ajuste fino), y los datos sintéticos los genera GPT-5. Una vez completado el modelo insignia, también se utiliza como modelo docente para mejorar el rendimiento de los dos modelos pequeños mediante destilación del conocimiento. Microsoft afirma que la tecnología de Harrier se integrará en la búsqueda de Bing y en los servicios de conexión de agentes de nueva generación (Agent).

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado