Microsoftがオープンソースの埋め込みモデルHarrierを公開、多言語MTEBランキングでトップに立ち、OpenAIやGoogleを大きくリード

robot
概要作成中

ビットコイン界ニュース。Microsoft Bingチームが、埋め込みモデルシリーズの Harrier をオープンソース化しました。埋め込みモデルは、検索エンジンおよび RAG システムの基盤コンポーネントであり、テキストをベクトルに変換して検索およびマッチングを可能にする役割を担います。その品質は、AI システムが正しい情報を見つけられるかどうかを直接左右します。フラッグシップ版 Harrier-OSS-v1-27B は、多言語 MTEB v2 ベンチマーク(131 のタスクを含む)で平均 74.3 を獲得し、それまでのオープンソースモデル最高スコアを 2 パーセントポイント上回って首位に立っています。クローズドモデルとの比較では、リード幅はさらに大きくなります。OpenAI text-embedding-3-large は平均 58.92、Google Gemini Embedding 2 は 69.9、Amazon Titan Embed v2 は 60.37 です。低計算量のシナリオ向けに、オープンソースとして 2 つの軽量版も同時に公開します。1. 0.6B パラメータ版:平均 69.0、ランキング 10 位。すでに Google Gemini Embedding 1(68.33)を上回っています。2. 270M パラメータ版:平均 66.5、ランキング 15 位。最小のモデル体量ながら、OpenAI および Amazon のクローズドモデルの 3 つのバージョンはいずれも上回り、100 種類以上の言語と 32K のコンテキストウィンドウに対応しています。学習データには、弱い教師ありのテキストペア(対比事前学習用)が 20 億件以上、高品質サンプル(微調整用)が 1000 万件含まれます。合成データは GPT-5 によって生成されています。フラッグシップモデルの完成後も、教師モデルとして機能し、知識蒸留によって 2 つの小型モデルの性能を引き上げます。Microsoft は、Harrier の技術を Bing 検索および新世代の Agent 接地サービスに統合すると述べています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし