العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
CFD
مشتقات CFD للأسهم الأمريكية
الأسهم الأمريكية
وصول إلى الأسهم الأمريكية وصناديق ETF الحقيقية
أسهم هونغ كونغ
تداول أسهم عالية الجودة مدرجة في هونغ كونغ
العقود الآجلة للأسهم
رافع مالية عالية، وتداول على مدار 24/7
الأسهم المُرمَّزة
مدعومة بأصول أسهم حقيقية
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
GUSD
سك GUSD للحصول على عوائد أصول العالم الحقيقي (RWA) للخزانة
أنشطة الأسهم
تداول الأسهم الرائجة واحصل على إنزالات جوية سخية
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
تتناول أحدث أبحاث DGrid AI عيبًا أساسيًا في تقييم الذكاء الاصطناعي اللامركزي
تقدم DGrid AI إطار عمل جديد لإثبات الجودة مصمم لتقييم مخرجات الذكاء الاصطناعي وتحسين توزيع المكافآت عبر الشبكات اللامركزية.
ملخص
تمتلك الشبكات اللامركزية للذكاء الاصطناعي مشكلة في الدفع عمل الباحثون على حلها بصمت لسنوات، وتضع ورقة حديثة من DGrid AI القضية مباشرة على الطاولة. تعتمد أنظمة تقييم الجودة التي تدعم مكافآت العقد بشكل كبير على وجود إجابة صحيحة للمقارنة معها. في الواقع، نادرًا ما توجد تلك الإجابة.
الورقة، وهي الرابعة في سلسلة أبحاث DGrid المستمرة حول إثبات الجودة (PoQ)، تقترح بديلًا مدربًا وتنشر الأرقام وراءه. يستخدم PoQ نماذج تقييم صغيرة لتقييم جودة كل مخرجات، وتلك الدرجات تدفع المكافآت. رخيصة، وقابلة للتوسع.
بنى DGrid هذا خطوة بخطوة: نسخة واعية بالتكلفة تدمج الكمون الزمني في حسابات الدفع، وطبقة مقاومة للمناورات التي تصمد عندما يكذب المقيمون أو يتكاسلون، وإطار عمل يقسم “الجودة” إلى أجزاء يمكن فحصها. هندسة متينة. وكل طبقة كانت تصطدم بالحائط نفسه.
كيف تطور مشكلة التقييم
الهيكل الأساسي لشبكة الاستنتاج اللامركزية يخلق تحديًا في القياس. تقوم العقد المستقلة بتشغيل نماذج اللغة والرد على استفسارات المستخدمين. يجب تقييم تلك الردود لأن الدرجات تحدد الأجر. التحقق التشفيري من كل عملية حسابية سيكون محكمًا من الناحية التقنية لكنه مكلف بشكل مفرط على نطاق واسع، لذا كان المسار العملي هو التقييم الآلي للجودة باستخدام نماذج أصغر.
طورت أعمال DGrid السابقة هذا النهج تدريجيًا، مضيفة مدفوعات محسوبة حسب الكمون، ودفاعات ضد المقيمين المضللين، وتفصيل أدق لما تعنيه “الجودة” في سياق التقييم. ما لم يتمكنوا من حله بالكامل هو إشارة التقييم نفسها.
أقوى إشارة كانت التشابه الدلالي: مقارنة مخرجات النموذج مع إجابة صحيحة معروفة وقياس المسافة بينهما في فضاء التضمين. يعمل ذلك في بيئات الاختبار التي توجد فيها إجابات مرجعية. لكنه لا يعمل في شبكة حية حيث يطرح المستخدمون أسئلة مفتوحة ولا توجد حقيقة أساسية في قاعدة البيانات.
البدائل الجاهزة كانت أسوأ أداءً. نموذج NLI عبر المشفر، وهو نوع من النماذج المصمم لتقييم الاستنتاج المنطقي بين الجمل، أعاد ارتباط بيرسون بقيمة -0.363 عند تقييم جودة الإجابة بدون إجابة مرجعية. الارتباط السلبي يعني أن النموذج كان يميل أكثر إلى تفضيل الردود السيئة على الجيدة. هذا ليس أداة تقييم قابلة للاستخدام.
ما تقترحه الورقة
بدلاً من تعديل النماذج الموجودة، درب الباحثون ثلاثة محكمين خصيصًا لتقييم الجودة بدون مرجع. كل واحد يأخذ سؤالًا وردًا كمدخل ويعطي درجة من 0 إلى 10، بدون توفير إجابة صحيحة.
تختلف النماذج الثلاثة بشكل رئيسي في الحجم والسرعة:
اتبعت عملية التدريب مرحلتين. تم تدريب النماذج أولاً على UltraFeedback، مجموعة بيانات عامة من ردود GPT-4 المصنفة، قبل أن يتم ضبطها على توزيع مهمة الشبكة الخاص. كان الهدف هو إعطاء الحكام فهمًا أساسيًا واسعًا للجودة قبل تضييق تركيزهم على سياق التقييم المحدد.
النتيجة الأساسية
على مجموعة اختبار محجوزة من 300 مثال، حقق حكم DeBERTa ارتباط بيرسون بقيمة 0.747 مقابل المؤشر الحقيقي — بدون الوصول إلى أي إجابة مرجعية. أما المقيمون المبنيون على المرجع من الإطار السابق، الذين كان لديهم وصول إلى الإجابات الصحيحة، فبلغت أقصى قيمة لهم 0.647.
الفرق له تفسير بسيط. المقيمون القدامى كانوا مقاييس تشابه تقيس المسافة الكونية إلى تضمين مرجعي. أما الحكام الجدد فتم تحسينهم بشكل كامل لمهمة التقييم نفسها. ينعكس الفرق في الأداء أكثر من أي اختراق معماري.
تحذير يضيفه المؤلفون: الحقيقة الأساسية المستخدمة هنا هي نفسها عبارة عن مؤشر — تداخل الكلمات على مستوى الرموز بدلاً من الحكم البشري. تتوافق الحكام جيدًا مع هذا المقياس، لكن ما إذا كان تداخل الكلمات يعكس بشكل موثوق رد فعل بشري على جودة الرد هو سؤال منفصل لم يُحل بعد.
ميزات موجهة للنشر تصاحب الحكام. خط أنابيب متسلسل يوجه الاستفسارات عبر النموذج الخفيف أولاً ويصعد إلى نماذج أثقل فقط عندما تكون الدرجات غامضة، مما يقلل تكاليف التقييم بنسبة تصل إلى 72.7% عند أقصى حد، رغم أن الارتباط ينخفض إلى حوالي 0.51 في ذلك الإعداد. آلية معايرة عبر الإنترنت، تعمل بدون ضبط يدوي، تحدد باستمرار الجودة الدلالية كإشارة سائدة وتعدل الأوزان وفقًا لذلك، معطية إياها 4.7 أضعاف وزنها الابتدائي مع مرور الوقت.
أين لا تزال تواجه النظام صعوبة
يؤدي الحكام أداء غير متساوٍ عبر أنواع المهام. في الإجابة على الأسئلة، يصل الارتباط إلى 0.830. في التلخيص، ينخفض إلى 0.199. يعزو الورق ذلك ليس إلى فشل الحكام أنفسهم، بل إلى مقياس التقييم المستخدم أثناء التدريب: تداخل الكلمات الخام هو مقياس ضعيف لجودة التلخيص، لذلك تتعلم النماذج المدربة عليه تتبع إشارة ضعيفة. يصف المؤلفون ذلك بأنه المشكلة المفتوحة الأساسية بدلاً من أن يكون قيودًا معروفة تُدار بصمت.
هذا الإطار يتوافق مع كيفية عرض الورقة لنتائجها بشكل عام — منهجيًا، مع حالات الفشل كما هو موضح بوضوح مثل التحسينات. بعد أربعة أوراق في سلسلة الأبحاث هذه، يبدو العمل أقل كإعلان عن منتج وأكثر كفريق يقترب تدريجيًا من سد الثغرات في شيء يعتزمون نشره فعليًا.
الإفصاح: يُقدم هذا المحتوى من طرف طرف ثالث. لا يوافق crypto.news ولا مؤلف المقالة على أي منتج مذكور في هذه الصفحة. يجب على المستخدمين إجراء أبحاثهم الخاصة قبل اتخاذ أي إجراء متعلق بالشركة.