كشفت عن عملية ما بعد التدريب لوكيل البحث على الويب الخاص بها، المستندة إلى Qwen3.5-122B-A10B و 397B، على مرحلتين: المرحلة الأولى هي SFT لبناء الالتزام بالتعليمات والتوافق اللغوي، وRL (GRPO) لتحسين كفاءة البحث والأدوات. تشمل البيانات أسئلة وأجوبة متعددة القفزات قابلة للتحقق ومعايير rubric، مع مكافآت تعتمد على التجميع المراقب وعقوبات الكفاءة المحددة ضمن المجموعات. أظهرت التقييمات أنه على منصة FRAMES، كانت نسبة استدعاء الأدوات لمرة واحدة 57.3%، ولأربع مرات 73.9%، مع تكلفة تقارب 2 سنت أمريكي، متفوقة على GPT-5.4 و Sonnet.

BlockBeatNews

2026-04-23 05:07:25

إنشاء الملخص قيد التقدم

وفقًا لنظام المراقبة Beating، أصدر فريق البحث Perplexity مقالًا تقنيًا، يكشف عن عملية ما بعد التدريب لوكيل البحث على الويب الخاص بهم. تعتمد هذه العملية على نموذج مفتوح المصدر Qwen3.5-122B-A10B وQwen3.5-397B-A17B، وتتبنى خطة من مرحلتين: أولاً، يتم استخدام التعديل الموجه (SFT) لإنشاء سلوكيات ضرورية للنشر مثل اتباع الأوامر واتساق اللغة، ثم يتم تحسين دقة البحث وكفاءة استخدام الأدوات عبر التعلم المعزز عبر الإنترنت (RL).

تستخدم مرحلة RL خوارزمية GRPO، وتتكون بيانات التدريب من جزأين: الأول، مجموعة أسئلة وأجوبة متعددة القفزات قابلة للتحقق تم إنشاؤها داخليًا، حيث تبدأ من استعلامات بذور داخلية، وتُبنى أسئلة تتطلب استنتاجات من 2 إلى 4 خطوات، ويتم التحقق من صحة الإجابة بواسطة عدة محللين مستقلين؛ الثاني، بيانات حوار عامة تعتمد على معايير تقييم (rubric)، وتحول متطلبات النشر مثل اتباع الأوامر والقيود على التنسيق إلى شروط أساسية يمكن فحصها موضوعيًا، وتُستخدم في مرحلة RL لمنع تدهور السلوكيات التي تم إنشاؤها بواسطة SFT.

الجوهر في تصميم المكافأة هو التجميع عبر البوابات: فقط عندما يكون الأساس صحيحًا (أي أن الإجابة أو معايير التقييم كلها مستوفاة)، يُحتسب درجة التفضيل، مما يمنع إشارات التفضيل العالية من تغطية الأخطاء الواقعية. تُستخدم عقوبة الكفاءة بأسلوب التثبيت داخل المجموعة، حيث يُقارن الأداء مع الإجابات الصحيحة في نفس المجموعة، ويُفرض عقاب سلس على عدد مرات استدعاء الأدوات وطول النص المُنتج الذي يتجاوز الحد المسموح.

تُظهر التقييمات أن نموذج Qwen3.5-397B-SFT-RL بعد التدريب يتفوق في عدة معايير بحث. في FRAMES، تصل نسبة استدعاء الأدوات في مرة واحدة إلى 57.3%، أي أعلى بمقدار 5.7 نقطة مئوية من GPT-5.4، وأعلى بمقدار 4.7 نقطة من Sonnet 4.6. تحت ميزانية متوسطة (4 استدعاءات أدوات)، تصل النسبة إلى 73.9%، وتكلفة كل استعلام 2.0 سنت أمريكي؛ وفي نفس الظروف، تكون النسب لـ GPT-5.4 هي 67.8% / 8.5 سنت، وSonnet 4.6 هي 62.4% / 15.3 سنت. تُحسب تكاليف البيانات وفقًا لأسعار واجهات برمجة التطبيقات التي أعلنت عنها الشركات، دون احتساب تحسينات التخزين المؤقت.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.21M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
794.55K درجة الشعبية
#
BitcoinBouncesBack
210.45K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.66K درجة الشعبية
#
EthereumMemeSeasonReturns
2M درجة الشعبية

تثبيت

خريطة الموقع

بعد تدريب وكيل البحث العلني Perplexity، يتفوق نموذج Qwen3.5 من حيث الدقة والتكلفة على GPT-5.4

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

تثبيت