بيربليكسيتي تكشف عن طريقة التدريب اللاحق لوكلاء البحث، حيث يتفوق نموذج Qwen3.5 على GPT-5.4 في الدقة والتكلفة.

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 23 أبريل (UTC+8)، وفقًا لرصد Beating، نشر فريق أبحاث Perplexity مقالة تقنية تكشف عن عملية ما بعد التدريب لعامل البحث على الويب الخاص به. تعتمد هذه العملية على النماذج مفتوحة المصدر Qwen3.5-122B-A10B و Qwen3.5-397B-A17B، وتستخدم خطة من مرحلتين: أولاً، يتم استخدام التعلم الخاضع للإشراف الدقيق (SFT) لإنشاء سلوكيات النشر الضرورية مثل اتباع التعليمات واتساق اللغة، ثم يتم استخدام التعلم المعزز عبر السياسة عبر الإنترنت (RL) لتحسين دقة البحث وكفاءة استخدام الأدوات. تستخدم مرحلة RL خوارزمية GRPO، وتتكون بيانات التدريب من جزأين: الأول هو مجموعة بيانات أسئلة وأجوبة قابلة للتحقق متعددة القفزات تم تطويرها ذاتيًا، انطلاقًا من استعلامات أولية داخلية، يتم بناء أسئلة تتطلب استدلالًا من 2 إلى 4 قفزات عبر سلسلة كيانات، ويتم التحقق من تفرد الإجابات بواسطة عدة حلول مستقلة؛ والثاني هو بيانات المحادثة العامة القائمة على معايير التقييم (rubric)، حيث يتم تحويل متطلبات النشر مثل اتباع التعليمات وقيود التنسيق إلى شروط ذرية قابلة للفحص الموضوعي، لمنع تدهور السلوكيات التي أنشأها SFT خلال مرحلة RL. جوهر تصميم المكافأة هو التجميع المُبوّب: فقط عندما تكون القاعدة صحيحة (الإجابة على السؤال صحيحة أو تلبية جميع معايير التقييم) يتم احتساب درجة التفضيل، لمنع إشارات التفضيل العالية من إخفاء الأخطاء الواقعية. يستخدم عقاب الكفاءة أسلوب التثبيت داخل المجموعة، مع اتخاذ الإجابات الصحيحة داخل المجموعة كمرجع، ويتم تطبيق عقاب سلس على عدد استدعاءات الأدوات الزائدة وطول التوليد الزائد. تظهر التقييمات أن نموذج Qwen3.5-397B-SFT-RL بعد التدريب يحقق أفضل أداء في عدة معايير بحث. في FRAMES، يصل إلى 57.3% باستخدام استدعاء أداة واحد، وهو أعلى بنسبة 5.7 نقطة مئوية من GPT-5.4، وأعلى بنسبة 4.7 نقطة مئوية من Sonnet 4.6. مع ميزانية متوسطة (4 استدعاءات أدوات) يصل إلى 73.9%، بتكلفة 2.0 سنتًا لكل استعلام؛ تحت نفس الظروف، GPT-5.4 يسجل 67.8% / 8.5 سنتًا، و Sonnet 4.6 يسجل 62.4% / 15.3 سنتًا. يتم حساب بيانات التكلفة بناءً على أسعار واجهات برمجة التطبيقات العامة لكل مزود، دون تضمين تحسينات التخزين المؤقت. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت