Microsoft abre o modelo de incorporação de código aberto Harrier, liderando a classificação MTEB multilíngue e superando significativamente a OpenAI e o Google

CoinNetwork · 2026-04-08T02:13:47+00:00

A equipa do Microsoft Bing open-sourced a série de modelos de incorporação Harrier, sendo que a versão flagship Harrier-OSS-v1-27B ocupa o primeiro lugar nos benchmarks multilíngues, apresentando vantagens claras em relação aos modelos de código fechado. Foram também lançadas duas versões leves de código aberto, adequadas para cenários com baixa capacidade computacional, suportando mais de 100 idiomas. Esta tecnologia será integrada no Bing Search e no novo serviço de Agentes de próxima geração.

CoinNetwork

2026-04-08 02:13:47

Geração de resumo em curso

Notícias do Coin World, a equipa do Microsoft Bing abriu o código da série de modelos de embeddings Harrier. Os modelos de embeddings são um componente base de motores de pesquisa e de sistemas RAG, responsável por transformar texto em vetores para permitir a pesquisa e a correspondência; a sua qualidade determina diretamente se o sistema de IA consegue encontrar a informação correta. A versão flagship Harrier-OSS-v1-27B obteve uma pontuação média de 74,3 em todos os testes do benchmark multilingue MTEB v2 (que abrange 131 tarefas), superando em 2 pontos percentuais o melhor valor anterior de um modelo aberto, ficando em primeiro lugar. Em comparação com modelos fechados, a vantagem é ainda maior: o OpenAI text-embedding-3-large teve uma média de 58,92, o Google Gemini Embedding 2 foi de 69,9 e o Amazon Titan Embed v2 foi de 60,37. Em simultâneo, disponibilizam dois versões leves de código aberto para implementação em cenários com baixo poder de computação: 1. versão com 0,6B de parâmetros: média de 69,0, 10.º lugar no ranking, já ultrapassou o Google Gemini Embedding 1 (68,33); 2. versão com 270M de parâmetros: média de 66,5, 15.º lugar no ranking, ultrapassando com a menor dimensão três versões de modelos fechados da OpenAI e da Amazon. Ambos os modelos suportam mais de 100 línguas e uma janela de contexto de 32K. Os dados de treino incluem mais de 2 mil milhões de pares de texto fracamente supervisionados (para pré-treino comparativo) e 10 milhões de amostras de alta qualidade (para afinação), sendo os dados sintéticos gerados pelo GPT-5. Após a conclusão do modelo flagship, este foi ainda utilizado como modelo professor, através de distilação de conhecimento, para melhorar o desempenho dos dois modelos mais pequenos. A Microsoft afirma que a tecnologia Harrier será integrada na pesquisa do Bing e nos serviços de base para a nova geração de agentes.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos