العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
اقترحت ستانفورد وبركلي مفهوم LLM-as-a-Verifier، مع تحديث قائمة أفضل الأداء في Terminal-Bench وSWE-Bench
أخبار ME News، في 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة الذكية لمهمة واحدة، غالبًا ما تؤدي عمليات التشغيل المتعددة إلى الحصول على حلول مختلفة، وقد تحتوي على أخطاء. إذا أمكن اختيار الأفضل تلقائيًا، فإن معدل النجاح الإجمالي يمكن أن يتجاوز تشغيل مرة واحدة. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر يحكم ويقيم (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يمنح حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل.
اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج في بيركلي بالتعاون مع شركة نيفيديا مفهوم LLM-as-a-Verifier، لتحسين عملية الاختيار. لم يعد الأمر يقتصر على النظر إلى الدرجة النهائية التي يمنحها الحكم، بل يتم قراءة توزيع الاحتمالات على كل مستوى تقييم، وحساب قيمة مكافأة مستمرة منها. كما يتم تكرار تقييم الحكم عدة مرات وأخذ المتوسط لإزالة الانحراف العشوائي، وتقسيم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل التنسيق الناتج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل.
في التجارب، استخدموا Gemini 2.5 Flash كمحقق، وكانت دقة التحقق في مرة واحدة 74.7%، بينما الحكم التقليدي كان 57.0%. بعد تكرار التحقق 16 مرة، وصل Verifier إلى 77.4%، وJudge إلى 70.2%.
يوجد 26.5% من الحالات التي ينتهي فيها الحكم التقليدي بالتعادل، بينما في جميع الإعدادات، كانت نسبة التعادل لدى Verifier تساوي 0%.
النتائج الفعلية: على منصة Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عشوائيًا 81.8%، وارتفعت إلى 86.4% بعد اختيار الحل بواسطة Verifier.
وفي اختبار SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، ارتفعت نسبة النجاح من 76.1% إلى 77.8%.
حتى تاريخ إصدار 9 أبريل، كانت كلا النتيجتين في المركز الأول.
الإطار مفتوح المصدر.
(المصدر: BlockBeats)