العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
نموذج الاستدلال بعد التدريب SU-01 يحقق أداء الميدالية الذهبية في أسئلة المسابقات الدولية
AIMPACT رسالة، 16 مايو (UTC+8)، قدمت ورقة بحثية جديدة نظامًا لتحويل نماذج الاستدلال بعد التدريب إلى حلال مسائل أولمبياد من مستوى عالمي، وتدريب نموذج SU-01 بناءً على هذا النهج.
يشمل هذا النهج ثلاث خطوات: أولاً، استخدام دورة الارتباك العكسي للتوجيه للإشراف على التعديل الدقيق، بهدف غرس سلوك البحث عن الإثبات الصارم والفحص الذاتي؛
ثم توسيع هذه السلوكيات من خلال التعلم المعزز ذو المرحلتين (الانتقال من التعلم المعزز بالمكافآت القابلة للتحقق إلى التعلم المعزز بمستوى الإثبات)؛
وأخيرًا، تحسين الأداء من خلال التوسيع أثناء الاختبار.
طبقت فريق البحث النهج على نموذج أساسي 30B-A3B، باستخدام حوالي 340,000 مسار من 8K رموز فرعية للإشراف على التعديل الدقيق، ثم أجروا 200 خطوة من التعلم المعزز، لينتجوا SU-01.
يستطيع النموذج إجراء استدلال مستقر على مسائل صعبة، مع طول مسار يتجاوز 100,000 رمز، وحقق مستوى ميدالية ذهبية في مسابقات مثل IMO 2025/USAMO 2026 و IPhO 2024/2025، وأظهر قدرة على التعميم في مجالات الاستدلال العلمي خارج الرياضيات والفيزياء.
(المصدر: InFoQ)