بيربليكسيتي تنشر طريقة تدريب وكيل البحث بعد التدريب، نموذج يعتمد على Qwen3.5 يتفوق على GPT-5.4 في الدقة والتكلفة.

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 23 أبريل (UTC+8)، وفقًا لرصد Beating، نشر فريق أبحاث Perplexity مقالة تقنية يكشف فيها عن عملية ما بعد التدريب لوكيل البحث على الويب الخاص به. تعتمد هذه العملية على النماذج مفتوحة المصدر Qwen3.5-122B-A10B و Qwen3.5-397B-A17B، وتستخدم خطة مرحلتين: أولاً، استخدام الضبط الدقيق الخاضع للإشراف (SFT) لبناء السلوكيات المطلوبة للنشر مثل اتباع التعليمات واتساق اللغة. ثانيًا، استخدام التعلم التعزيزي القائم على السياسة عبر الإنترنت (RL) لتحسين دقة البحث وكفاءة استخدام الأدوات. تستخدم مرحلة RL خوارزمية GRPO، وتتكون بيانات التدريب من جزئين: الأول، مجموعة بيانات أسئلة وأجوبة متعددة القفزات قابلة للتحقق تم تطويرها ذاتيًا، حيث تنطلق من استعلامات داخلية أولية وتستخدم سلسلة كيانات لبناء أسئلة تتطلب استدلالًا من 2 إلى 4 قفزات، مع التحقق من تفرد الإجابات بواسطة عدة محللين مستقلين. الثاني، بيانات حوار عامة تستند إلى معايير التقييم (rubric)، حيث يتم تحويل متطلبات النشر مثل اتباع التعليمات وقيود التنسيق إلى شروط ذرية قابلة للفحص الموضوعي، وذلك لمنع تدهور السلوكيات التي تم بناؤها بواسطة SFT خلال مرحلة RL. جوهر تصميم المكافأة هو التجميع المُقيد: فقط عندما يكون خط الأساس صحيحًا (الإجابة صحيحة في الأسئلة والأجوبة أو جميع معايير التقييم مستوفاة)، يتم تضمين درجة التفضيل في الحساب، لمنع إشارات التفضيل العالية من إخفاء الأخطاء الواقعية. يتم تطبيق عقوبة الكفاءة باستخدام طريقة التثبيت داخل المجموعة، حيث يتم استخدام الإجابات الصحيحة في نفس المجموعة كمرجع، مع فرض عقوبات سلسة على عدد استدعاءات الأدوات وطول المخرجات الزائدين. تظهر التقييمات أن النموذج Qwen3.5-397B-SFT-RL بعد ما بعد التدريب يحقق أداءً أفضل على معايير بحث متعددة. على معيار FRAMES، يصل باستدعاء أداة واحدة إلى 57.3%، وهو أعلى بنسبة 5.7 نقطة مئوية من GPT-5.4 وأعلى بنسبة 4.7 نقطة مئوية من Sonnet 4.6. مع ميزانية متوسطة (4 استدعاءات أدوات) يصل إلى 73.9%، بتكلفة 2.0 سنت لكل استعلام؛ تحت نفس الظروف، GPT-5.4 يحقق 67.8% / 8.5 سنت، وSonnet 4.6 يحقق 62.4% / 15.3 سنت. تم حساب التكاليف وفقًا لأسعار API المعلنة من قبل كل بائع، دون تحسينات التخزين المؤقت. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت