Microsoft abre o modelo de incorporação de código aberto Harrier, liderando a classificação MTEB multilíngue e superando significativamente a OpenAI e o Google

robot
Geração de resumo em curso

Notícias do Coin World, a equipa do Microsoft Bing abriu o código da série de modelos de embeddings Harrier. Os modelos de embeddings são um componente base de motores de pesquisa e de sistemas RAG, responsável por transformar texto em vetores para permitir a pesquisa e a correspondência; a sua qualidade determina diretamente se o sistema de IA consegue encontrar a informação correta. A versão flagship Harrier-OSS-v1-27B obteve uma pontuação média de 74,3 em todos os testes do benchmark multilingue MTEB v2 (que abrange 131 tarefas), superando em 2 pontos percentuais o melhor valor anterior de um modelo aberto, ficando em primeiro lugar. Em comparação com modelos fechados, a vantagem é ainda maior: o OpenAI text-embedding-3-large teve uma média de 58,92, o Google Gemini Embedding 2 foi de 69,9 e o Amazon Titan Embed v2 foi de 60,37. Em simultâneo, disponibilizam dois versões leves de código aberto para implementação em cenários com baixo poder de computação: 1. versão com 0,6B de parâmetros: média de 69,0, 10.º lugar no ranking, já ultrapassou o Google Gemini Embedding 1 (68,33); 2. versão com 270M de parâmetros: média de 66,5, 15.º lugar no ranking, ultrapassando com a menor dimensão três versões de modelos fechados da OpenAI e da Amazon. Ambos os modelos suportam mais de 100 línguas e uma janela de contexto de 32K. Os dados de treino incluem mais de 2 mil milhões de pares de texto fracamente supervisionados (para pré-treino comparativo) e 10 milhões de amostras de alta qualidade (para afinação), sendo os dados sintéticos gerados pelo GPT-5. Após a conclusão do modelo flagship, este foi ainda utilizado como modelo professor, através de distilação de conhecimento, para melhorar o desempenho dos dois modelos mais pequenos. A Microsoft afirma que a tecnologia Harrier será integrada na pesquisa do Bing e nos serviços de base para a nova geração de agentes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar