بيربليكسيتي تكشف عن طريقة تدريب لاحقة لعامل البحث، حيث يتفوق النموذج المستند إلى Qwen3.5 على GPT-5.4 في الدقة والتكلفة.

robot
إنشاء الملخص قيد التقدم
ME News رسالة، في 23 أبريل (UTC+8)، وفقًا لرصد Beating، نشر فريق أبحاث Perplexity مقالًا تقنيًا يكشف فيه عملية ما بعد التدريب لوكيل البحث على الويب. تعتمد هذه العملية على النماذج مفتوحة المصدر Qwen3.5-122B-A10B و Qwen3.5-397B-A17B، وتتبع خطة مرحلية: أولاً باستخدام التعلم الخاضع للإشراف الدقيق (SFT) لإنشاء السلوكيات الضرورية للنشر مثل اتباع التعليمات واتساق اللغة، ثم باستخدام التعلم المعزز عبر السياسات عبر الإنترنت (RL) لتحسين دقة البحث وكفاءة استخدام الأدوات. تستخدم مرحلة RL خوارزمية GRPO، وتتكون بيانات التدريب من جزأين: الأول هو مجموعة بيانات أسئلة وأجوبة متعددة القفزات قابلة للتحقق تم تصنيعها داخليًا، تنطلق من استفسارات داخلية وتستخدم سلاسل الكيانات لبناء أسئلة تتطلب 2 إلى 4 قفزات استدلال، مع التحقق من تفرد الإجابات بواسطة عدة حلول مستقلة؛ والثاني هو بيانات محادثة عامة تعتمد على معايير التقييم (rubric)، حيث تُحول متطلبات النشر مثل اتباع التعليمات وقيود التنسيق إلى شروط ذرية قابلة للفحص الموضوعي، لمنع تدهور السلوك الذي أنشأه SFT في مرحلة RL. جوهر تصميم المكافأة هو التجميع المحكوم: فقط عندما تكون المعايير الأساسية صحيحة (الإجابة صحيحة على الأسئلة أو جميع معايير التقييم مستوفاة) يتم احتساب درجة التفضيل، لمنع إشارات التفضيل العالية من إخفاء الأخطاء الواقعية. عقوبة الكفاءة تستخدم طريقة الربط داخل المجموعة، حيث تعتمد على الإجابات الصحيحة داخل المجموعة، وتفرض عقوبة سلسة على عدد استدعاءات الأدوات الزائدة وطول النص الناتج. أظهرت التقييمات أن Qwen3.5-397B-SFT-RL بعد التدريب اللاحق حقق أفضل أداء في عدة معايير بحث. في FRAMES، وصل إلى 57.3% باستدعاء أداة واحدة، أعلى بنسبة 5.7% من GPT-5.4، وأعلى بنسبة 4.7% من Sonnet 4.6. وبميزانية متوسطة (4 استدعاءات أدوات) وصل إلى 73.9% بتكلفة 2.0 سنت لكل استعلام؛ بينما تحت نفس الظروف حقق GPT-5.4 67.8% / 8.5 سنت، و Sonnet 4.6 62.4% / 15.3 سنت. تم حساب تكاليف البيانات وفقًا لأسعار API العامة لكل مزود، دون احتساب تحسين التخزين المؤقت. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت