وفقًا للمراقبة التي أجرتها Dongcha Beating، نشرت فريق أبحاث Perplexity مقالة تقنية تفصيلية لعملية ما بعد التدريب لوكيل البحث على الويب الخاص بها. تعتمد هذه العملية على نماذج المصدر المفتوح Qwen3.5-122B-A10B وQwen3.5-397B-A17B، وتتبنى نهجًا من مرحلتين: أولاً، يتم استخدام التوليف الدقيق بالإشراف (SFT) لتحديد السلوكيات الضرورية للنشر، مثل الالتزام بالتعليمات واتساق اللغة؛ ثم، يتم تحسين دقة البحث وكفاءة استخدام الأدوات عبر التعلم المعزز للسياسات عبر الإنترنت (RL). تستخدم مرحلة التعلم المعزز خوارزمية GRPO، مع بيانات تدريب تتكون من جزأين: أولاً، مجموعة بيانات من الأسئلة والأجوبة القابلة للتحقق متعددة القفزات والتي تطورها الشركة، والتي تبني أسئلة تتطلب من 2 إلى 4 قفزات من التفكير من استفسارات داخلية أولية وتتحقق من تفرد الإجابة باستخدام عدة محللين مستقلين؛ ثانيًا، بيانات حوار عامة تعتمد على معايير التقييم (rubric)، والتي تحول متطلبات النشر مثل الالتزام بالتعليمات وقيود التنسيق إلى شروط ذرية يمكن التحقق منها بشكل موضوعي لمنع تدهور السلوكيات التي تم تأسيسها خلال التوليف الدقيق بالإشراف في مرحلة التعلم المعزز. جوهر تصميم المكافأة هو التجميع المقيد: يتم النظر في درجات التفضيل فقط في الحسابات عندما يكون الخط الأساس صحيحًا (أي، أن تكون الإجابة على السؤال صحيحة أو تلبية جميع معايير التقييم)، مما يمنع إشارات التفضيل العالية من إخفاء الأخطاء الواقعية. تُطبق عقوبات الكفاءة باستخدام طريقة التثبيت داخل المجموعة، حيث تعمل الإجابات الصحيحة في نفس المجموعة كخط أساس لفرض عقوبات سلسة على عدد مرات استدعاء الأدوات المفرط وطول التوليد. تظهر التقييمات أن Qwen3.5-397B-SFT-RL بعد التدريب يعمل بشكل مثالي عبر العديد من معايير البحث. على FRAMES، يحقق استدعاء أداة واحد نسبة 57.3%، متفوقًا على GPT-5.4 بمقدار 5.7 نقطة مئوية وSonnet 4.6 بمقدار 4.7 نقطة مئوية. تحت ميزانية متوسطة (4 استدعاءات أدوات)، يصل إلى 73.9%، بتكلفة 2.0 سنت لكل استعلام؛ وتحت نفس الظروف، يحقق GPT-5.4 نسبة 67.8% بتكلفة 8.5 سنت، وSonnet 4.6 يصل إلى 62.4% بتكلفة 15.3 سنت. يتم حساب بيانات التكلفة استنادًا إلى تسعير API المتاح علنًا من كل بائع، مع استثناء تحسين التخزين المؤقت.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
340.1K درجة الشعبية
#
CryptoMarketsDipSlightly
244.72K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
35.53K درجة الشعبية
#
#DailyPolymarketHotspot
683.59K درجة الشعبية
#
StrategyAccumulates2xMiningRate
139.46M درجة الشعبية

تثبيت

خريطة الموقع

يُظهر بيربلكسيتي طريقة ما بعد التدريب لوكيل البحث، ويتفوق نموذج Qwen3.5 على GPT-5.4 في الدقة والتكلفة

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

تثبيت