微软开源三版本Harrier文本嵌入模型,27B版本在多语种MTEB v2中排名第一

robot
摘要生成中

据1M AI News的监测,微软已在Hugging Face上开源了多语言文本嵌入模型系列harrier-oss-v1,其中包含三个版本:270M、0.6B和27B。模型卡显示,该系列采用仅解码器架构、最后一个标记池化以及L2归一化,支持最多32,768个标记。它可用于检索、聚类、语义相似度、分类、双语挖掘以及重排序。多语言多任务评估基准(Multilingual MTEB)第二版是业界广泛使用的多语言文本嵌入评测标准,主要测试检索、分类、聚类和语义相似度等任务。根据微软的模型卡,这三个版本在该基准上的得分分别为66.5、69.0和74.3,其中27B版本在发布当天就登顶。270M和0.6B版本也采用更大的嵌入模型进行知识蒸馏,这三款模型均以MIT许可证开源。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论