1M AIニュースのモニタリングによると、Microsoftは、多言語テキスト埋め込みモデルファミリーharrier-oss-v1をHugging Faceでオープンソース化しました。このファミリーには3つのバージョンが含まれており、それぞれ270M、0.6B、27Bです。このモデルカードでは、このシリーズがデコーダーのみのアーキテクチャ、ラストトークンのプーリング、L2正規化を採用していることが示されており、最大32,768トークンをサポートします。検索、クラスタリング、意味類似性、分類、バイリンガル採掘、および並べ替えに利用できます。Multilingual MTEB v2は、業界で多言語テキスト埋め込みのためによく使われるベンチマークで、主に検索、分類、クラスタリング、意味類似性といったタスクをテストします。Microsoftのモデルカードによれば、このベンチマークにおける3つのバージョンのスコアは66.5、69.0、74.3であり、27Bバージョンはリリース当日に首位を達成しました。270Mおよび0.6Bの各バージョンも、知識蒸留のためにより大きな埋め込みモデルを利用しており、3つのモデルはいずれもMITライセンスのもとで公開されています。
Microsoft、Harrierテキスト埋め込みモデルの3つのバージョンをオープンソース化、27Bバージョンが多言語MTEB v2でトップに
1M AIニュースのモニタリングによると、Microsoftは、多言語テキスト埋め込みモデルファミリーharrier-oss-v1をHugging Faceでオープンソース化しました。このファミリーには3つのバージョンが含まれており、それぞれ270M、0.6B、27Bです。このモデルカードでは、このシリーズがデコーダーのみのアーキテクチャ、ラストトークンのプーリング、L2正規化を採用していることが示されており、最大32,768トークンをサポートします。検索、クラスタリング、意味類似性、分類、バイリンガル採掘、および並べ替えに利用できます。Multilingual MTEB v2は、業界で多言語テキスト埋め込みのためによく使われるベンチマークで、主に検索、分類、クラスタリング、意味類似性といったタスクをテストします。Microsoftのモデルカードによれば、このベンチマークにおける3つのバージョンのスコアは66.5、69.0、74.3であり、27Bバージョンはリリース当日に首位を達成しました。270Mおよび0.6Bの各バージョンも、知識蒸留のためにより大きな埋め込みモデルを利用しており、3つのモデルはいずれもMITライセンスのもとで公開されています。