العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
اقترحت ستانفورد وباركلي مفهوم LLM-as-a-Verifier، مع تحديث قائمة أفضل الأداء في Terminal-Bench وSWE-Bench
أخبار ME News، 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة بالذكاء الاصطناعي لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما يؤدي إلى حلول مختلفة، وقد تحتوي على أخطاء. إذا أمكن اختيار الأفضل تلقائيًا، فسيزيد معدل النجاح الإجمالي عن تشغيل واحد. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر يُقيم ويُعطي درجات (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يُعطي حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل.
اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج بجامعة بيركلي بالتعاون مع شركة نيفيديا نظام LLM-as-a-Verifier، لتحسين عملية الاختيار. لم يعد الأمر يقتصر على النظر إلى الدرجة النهائية التي يمنحها الحكم، بل يتم قراءة توزيع الاحتمالات لكل مستوى تقييم من النموذج، وحساب قيمة مكافأة مستمرة منها. كما يُكرر الحكم عدة مرات ويُأخذ المتوسط لإزالة التحيز العشوائي، ويتم تقسيم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل التنسيق الناتج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل.
في التجارب، استخدموا Gemini 2.5 Flash كمُحقق، وكانت دقة التحقق في مرة واحدة 74.7%، بينما الحكم التقليدي كان 57.0%. بعد تكرار التحقق 16 مرة، وصل Verifier إلى 77.4%، بينما Judge كان 70.2%.
يوجد 26.5% من حالات الحكم التقليدي التي تنتهي بالتعادل، بينما في Verifier كانت نسبة التعادل 0% في جميع الإعدادات.
النتائج الفعلية: على Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عند اختيار عشوائي 81.8%، وترقية الاختيار باستخدام Verifier زادت إلى 86.4%.
على SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، زادت نسبة النجاح من 76.1% إلى 77.8%.
حتى تاريخ إصدار 9 أبريل، كانت كلا الطريقتين في المركز الأول.
الإطار مفتوح المصدر.
(المصدر: BlockBeats)