مايكروسوفت تفتح مصدر نموذج الإدراج Harrier، وتتصدر قائمة MTEB متعددة اللغات، متفوقة بشكل كبير على OpenAI وGoogle

robot
إنشاء الملخص قيد التقدم

يعلن موقع CoinJie World أن فريق Microsoft Bing قد قام بفتح مصدر سلسلة نماذج التضمين Harrier. تُعد نماذج التضمين مكوّنًا أساسيًا لمحركات البحث وأنظمة RAG، وتكون مسؤولة عن تحويل النص إلى متجهات من أجل الاسترجاع والمطابقة، كما أن جودتها تحدد مباشرةً ما إذا كان بإمكان أنظمة الذكاء الاصطناعي العثور على المعلومات الصحيحة. حقق الإصدار الرائد Harrier-OSS-v1-27B متوسط درجة 74.3 على معيار MTEB v2 متعدد اللغات (يشمل 131 مهمة)؛ متجاوزًا أعلى درجة سابقة للنماذج المفتوحة المصدر بنسبة نقطتين مئويتين، وحلّ في المركز الأول. وبالمقارنة مع النماذج المغلقة المصدر، تكون الفجوة أكبر: متوسط OpenAI text-embedding-3-large هو 58.92، وGemini Embedding 2 من Google هو 69.9، وTitan Embed v2 من Amazon هو 60.37. بالتوازي، تم فتح مصدر نسختين خفيفتين للاستخدام في سيناريوهات ذات قدرة حسابية محدودة: 1. نسخة 0.6B من المعلمات: متوسط 69.0، المركز 10 في الترتيب، وقد تجاوزت بالفعل Gemini Embedding 1 من Google (68.33). 2. نسخة 270M من المعلمات: متوسط 66.5، المركز 15 في الترتيب، وبأصغر حجم، تتفوق على ثلاثة إصدارات من النماذج المغلقة المصدر الخاصة بـ OpenAI وAmazon. يدعم كلا الإصدارين المفتوحين المصدر أكثر من 100 لغة ونافذة سياق حتى 32K. تشمل بيانات التدريب أكثر من 2 مليار زوج من النصوص ضعيفة الإشراف (للاستخدام في ما قبل التدريب المقارن) و10 ملايين عينة عالية الجودة (للتدريب الدقيق/الضبط)، وتم توليد البيانات الاصطناعية بواسطة GPT-5. بعد اكتمال النموذج الرائد، يتم استخدامه أيضًا كنموذج مُعلّم (Teacher)، وذلك عبر التقطير المعرفي لتحسين أداء النموذجين الصغيرين. وتقول Microsoft إن تقنية Harrier سيتم دمجها في Bing Search وخدمة تقديم Agent من الجيل الجديد على أرض الواقع.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت