العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 30 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
يُظهر بيربلكسيتي طريقة ما بعد التدريب لوكيل البحث، ويتفوق نموذج Qwen3.5 على GPT-5.4 في الدقة والتكلفة
وفقًا للمراقبة التي أجرتها Dongcha Beating، نشرت فريق أبحاث Perplexity مقالة تقنية تفصيلية لعملية ما بعد التدريب لوكيل البحث على الويب الخاص بها. تعتمد هذه العملية على نماذج المصدر المفتوح Qwen3.5-122B-A10B وQwen3.5-397B-A17B، وتتبنى نهجًا من مرحلتين: أولاً، يتم استخدام التوليف الدقيق بالإشراف (SFT) لتحديد السلوكيات الضرورية للنشر، مثل الالتزام بالتعليمات واتساق اللغة؛ ثم، يتم تحسين دقة البحث وكفاءة استخدام الأدوات عبر التعلم المعزز للسياسات عبر الإنترنت (RL). تستخدم مرحلة التعلم المعزز خوارزمية GRPO، مع بيانات تدريب تتكون من جزأين: أولاً، مجموعة بيانات من الأسئلة والأجوبة القابلة للتحقق متعددة القفزات والتي تطورها الشركة، والتي تبني أسئلة تتطلب من 2 إلى 4 قفزات من التفكير من استفسارات داخلية أولية وتتحقق من تفرد الإجابة باستخدام عدة محللين مستقلين؛ ثانيًا، بيانات حوار عامة تعتمد على معايير التقييم (rubric)، والتي تحول متطلبات النشر مثل الالتزام بالتعليمات وقيود التنسيق إلى شروط ذرية يمكن التحقق منها بشكل موضوعي لمنع تدهور السلوكيات التي تم تأسيسها خلال التوليف الدقيق بالإشراف في مرحلة التعلم المعزز. جوهر تصميم المكافأة هو التجميع المقيد: يتم النظر في درجات التفضيل فقط في الحسابات عندما يكون الخط الأساس صحيحًا (أي، أن تكون الإجابة على السؤال صحيحة أو تلبية جميع معايير التقييم)، مما يمنع إشارات التفضيل العالية من إخفاء الأخطاء الواقعية. تُطبق عقوبات الكفاءة باستخدام طريقة التثبيت داخل المجموعة، حيث تعمل الإجابات الصحيحة في نفس المجموعة كخط أساس لفرض عقوبات سلسة على عدد مرات استدعاء الأدوات المفرط وطول التوليد. تظهر التقييمات أن Qwen3.5-397B-SFT-RL بعد التدريب يعمل بشكل مثالي عبر العديد من معايير البحث. على FRAMES، يحقق استدعاء أداة واحد نسبة 57.3%، متفوقًا على GPT-5.4 بمقدار 5.7 نقطة مئوية وSonnet 4.6 بمقدار 4.7 نقطة مئوية. تحت ميزانية متوسطة (4 استدعاءات أدوات)، يصل إلى 73.9%، بتكلفة 2.0 سنت لكل استعلام؛ وتحت نفس الظروف، يحقق GPT-5.4 نسبة 67.8% بتكلفة 8.5 سنت، وSonnet 4.6 يصل إلى 62.4% بتكلفة 15.3 سنت. يتم حساب بيانات التكلفة استنادًا إلى تسعير API المتاح علنًا من كل بائع، مع استثناء تحسين التخزين المؤقت.