العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
بعد تدريب وكيل البحث العلني Perplexity، يتفوق نموذج Qwen3.5 من حيث الدقة والتكلفة على GPT-5.4
وفقًا لنظام المراقبة Beating، أصدر فريق البحث Perplexity مقالًا تقنيًا، يكشف عن عملية ما بعد التدريب لوكيل البحث على الويب الخاص بهم. تعتمد هذه العملية على نموذج مفتوح المصدر Qwen3.5-122B-A10B وQwen3.5-397B-A17B، وتتبنى خطة من مرحلتين: أولاً، يتم استخدام التعديل الموجه (SFT) لإنشاء سلوكيات ضرورية للنشر مثل اتباع الأوامر واتساق اللغة، ثم يتم تحسين دقة البحث وكفاءة استخدام الأدوات عبر التعلم المعزز عبر الإنترنت (RL).
تستخدم مرحلة RL خوارزمية GRPO، وتتكون بيانات التدريب من جزأين: الأول، مجموعة أسئلة وأجوبة متعددة القفزات قابلة للتحقق تم إنشاؤها داخليًا، حيث تبدأ من استعلامات بذور داخلية، وتُبنى أسئلة تتطلب استنتاجات من 2 إلى 4 خطوات، ويتم التحقق من صحة الإجابة بواسطة عدة محللين مستقلين؛ الثاني، بيانات حوار عامة تعتمد على معايير تقييم (rubric)، وتحول متطلبات النشر مثل اتباع الأوامر والقيود على التنسيق إلى شروط أساسية يمكن فحصها موضوعيًا، وتُستخدم في مرحلة RL لمنع تدهور السلوكيات التي تم إنشاؤها بواسطة SFT.
الجوهر في تصميم المكافأة هو التجميع عبر البوابات: فقط عندما يكون الأساس صحيحًا (أي أن الإجابة أو معايير التقييم كلها مستوفاة)، يُحتسب درجة التفضيل، مما يمنع إشارات التفضيل العالية من تغطية الأخطاء الواقعية. تُستخدم عقوبة الكفاءة بأسلوب التثبيت داخل المجموعة، حيث يُقارن الأداء مع الإجابات الصحيحة في نفس المجموعة، ويُفرض عقاب سلس على عدد مرات استدعاء الأدوات وطول النص المُنتج الذي يتجاوز الحد المسموح.
تُظهر التقييمات أن نموذج Qwen3.5-397B-SFT-RL بعد التدريب يتفوق في عدة معايير بحث. في FRAMES، تصل نسبة استدعاء الأدوات في مرة واحدة إلى 57.3%، أي أعلى بمقدار 5.7 نقطة مئوية من GPT-5.4، وأعلى بمقدار 4.7 نقطة من Sonnet 4.6. تحت ميزانية متوسطة (4 استدعاءات أدوات)، تصل النسبة إلى 73.9%، وتكلفة كل استعلام 2.0 سنت أمريكي؛ وفي نفس الظروف، تكون النسب لـ GPT-5.4 هي 67.8% / 8.5 سنت، وSonnet 4.6 هي 62.4% / 15.3 سنت. تُحسب تكاليف البيانات وفقًا لأسعار واجهات برمجة التطبيقات التي أعلنت عنها الشركات، دون احتساب تحسينات التخزين المؤقت.