Microsoft Mở Nguồn Ba Phiên Bản Mô Hình Nhúng Văn Bản Harrier, Phiên Bản 27B Vượt Trội Trong Multilingual MTEB v2

AirdropBlackHole · 2026-03-30T19:50:16+00:00

Microsoft đã mở mã nguồn các mô hình nhúng văn bản đa ngôn ngữ harrier-oss-v1 trên Hugging Face, cung cấp ba phiên bản (270M, 0.6B, 27B). Các mô hình này hỗ trợ nhiều nhiệm vụ khác nhau và đạt điểm cao trên benchmark Multilingual MTEB v2.

AirdropBlackHole

2026-03-30 19:50:16

Đang tạo bản tóm tắt

Theo báo cáo giám sát của 1M AI News, Microsoft đã mã nguồn mở họ mô hình nhúng văn bản đa ngôn ngữ harrier-oss-v1 trên Hugging Face, bao gồm ba phiên bản: 270M, 0.6B và 27B. Phiếu mô hình cho biết chuỗi này sử dụng kiến trúc chỉ bộ giải mã (decoder-only), pooling theo token cuối cùng, và chuẩn hóa L2, hỗ trợ tối đa 32,768 token. Mô hình có thể được dùng cho truy xuất (retrieval), phân cụm (clustering), tương đồng ngữ nghĩa (semantic similarity), phân loại (classification), khai thác song ngữ (bilingual mining) và sắp xếp lại (reordering). Multilingual MTEB v2 là một bộ benchmark được sử dụng rộng rãi cho nhúng văn bản đa ngôn ngữ trong ngành, chủ yếu kiểm tra các tác vụ như truy xuất, phân loại, phân cụm và tương đồng ngữ nghĩa. Theo phiếu mô hình của Microsoft, điểm số của ba phiên bản trên benchmark này lần lượt là 66.5, 69.0 và 74.3, với phiên bản 27B đạt vị trí số 1 vào đúng ngày phát hành. Phiên bản 270M và 0.6B cũng sử dụng các mô hình nhúng lớn hơn để chưng cất tri thức (knowledge distillation), và cả ba mô hình đều được phát hành theo giấy phép MIT.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích