تتناول أحدث أبحاث DGrid AI عيبًا أساسيًا في تقييم الذكاء الاصطناعي اللامركزي

تقدم DGrid AI إطار عمل جديد لإثبات الجودة مصمم لتقييم مخرجات الذكاء الاصطناعي وتحسين توزيع المكافآت عبر الشبكات اللامركزية.

ملخص

  • تقدم أبحاث إثبات الجودة الجديد من DGrid AI تقييمًا بدون مرجع لتكافئ عقد الذكاء الاصطناعي دون الحاجة إلى إجابات صحيحة.
  • دربت DGrid محكمين متخصصين في الذكاء الاصطناعي لتقييم جودة المخرجات، مما يحسن أنظمة مكافأة الذكاء الاصطناعي اللامركزية على نطاق واسع.
  • تساعد نماذج إثبات الجودة الجديدة من DGrid AI الشبكات اللامركزية للذكاء الاصطناعي على تقييم الردود بدقة دون الحاجة إلى بيانات الحقيقة الأساسية.

تمتلك الشبكات اللامركزية للذكاء الاصطناعي مشكلة في الدفع عمل الباحثون على حلها بصمت لسنوات، وتضع ورقة حديثة من DGrid AI القضية مباشرة على الطاولة. تعتمد أنظمة تقييم الجودة التي تدعم مكافآت العقد بشكل كبير على وجود إجابة صحيحة للمقارنة معها. في الواقع، نادرًا ما توجد تلك الإجابة.

الورقة، وهي الرابعة في سلسلة أبحاث DGrid المستمرة حول إثبات الجودة (PoQ)، تقترح بديلًا مدربًا وتنشر الأرقام وراءه. يستخدم PoQ نماذج تقييم صغيرة لتقييم جودة كل مخرجات، وتلك الدرجات تدفع المكافآت. رخيصة، وقابلة للتوسع.

بنى DGrid هذا خطوة بخطوة: نسخة واعية بالتكلفة تدمج الكمون الزمني في حسابات الدفع، وطبقة مقاومة للمناورات التي تصمد عندما يكذب المقيمون أو يتكاسلون، وإطار عمل يقسم “الجودة” إلى أجزاء يمكن فحصها. هندسة متينة. وكل طبقة كانت تصطدم بالحائط نفسه.

كيف تطور مشكلة التقييم

الهيكل الأساسي لشبكة الاستنتاج اللامركزية يخلق تحديًا في القياس. تقوم العقد المستقلة بتشغيل نماذج اللغة والرد على استفسارات المستخدمين. يجب تقييم تلك الردود لأن الدرجات تحدد الأجر. التحقق التشفيري من كل عملية حسابية سيكون محكمًا من الناحية التقنية لكنه مكلف بشكل مفرط على نطاق واسع، لذا كان المسار العملي هو التقييم الآلي للجودة باستخدام نماذج أصغر.

طورت أعمال DGrid السابقة هذا النهج تدريجيًا، مضيفة مدفوعات محسوبة حسب الكمون، ودفاعات ضد المقيمين المضللين، وتفصيل أدق لما تعنيه “الجودة” في سياق التقييم. ما لم يتمكنوا من حله بالكامل هو إشارة التقييم نفسها.

أقوى إشارة كانت التشابه الدلالي: مقارنة مخرجات النموذج مع إجابة صحيحة معروفة وقياس المسافة بينهما في فضاء التضمين. يعمل ذلك في بيئات الاختبار التي توجد فيها إجابات مرجعية. لكنه لا يعمل في شبكة حية حيث يطرح المستخدمون أسئلة مفتوحة ولا توجد حقيقة أساسية في قاعدة البيانات.

البدائل الجاهزة كانت أسوأ أداءً. نموذج NLI عبر المشفر، وهو نوع من النماذج المصمم لتقييم الاستنتاج المنطقي بين الجمل، أعاد ارتباط بيرسون بقيمة -0.363 عند تقييم جودة الإجابة بدون إجابة مرجعية. الارتباط السلبي يعني أن النموذج كان يميل أكثر إلى تفضيل الردود السيئة على الجيدة. هذا ليس أداة تقييم قابلة للاستخدام.

ما تقترحه الورقة

بدلاً من تعديل النماذج الموجودة، درب الباحثون ثلاثة محكمين خصيصًا لتقييم الجودة بدون مرجع. كل واحد يأخذ سؤالًا وردًا كمدخل ويعطي درجة من 0 إلى 10، بدون توفير إجابة صحيحة.

تختلف النماذج الثلاثة بشكل رئيسي في الحجم والسرعة:

  • TextCNN (~10 مليون معلمة) يعمل في حوالي 1 مللي ثانية لكل استدعاء، مما يجعله مناسبًا للترشيح السريع في المرحلة الأولى.
  • MiniLM (22 مليون معلمة) يقع في الوسط عند حوالي 13 مللي ثانية.
  • DeBERTa (184 مليون معلمة) يستغرق حوالي 15 مللي ثانية ومُحسّن للدقة.

اتبعت عملية التدريب مرحلتين. تم تدريب النماذج أولاً على UltraFeedback، مجموعة بيانات عامة من ردود GPT-4 المصنفة، قبل أن يتم ضبطها على توزيع مهمة الشبكة الخاص. كان الهدف هو إعطاء الحكام فهمًا أساسيًا واسعًا للجودة قبل تضييق تركيزهم على سياق التقييم المحدد.

النتيجة الأساسية

على مجموعة اختبار محجوزة من 300 مثال، حقق حكم DeBERTa ارتباط بيرسون بقيمة 0.747 مقابل المؤشر الحقيقي — بدون الوصول إلى أي إجابة مرجعية. أما المقيمون المبنيون على المرجع من الإطار السابق، الذين كان لديهم وصول إلى الإجابات الصحيحة، فبلغت أقصى قيمة لهم 0.647.

الفرق له تفسير بسيط. المقيمون القدامى كانوا مقاييس تشابه تقيس المسافة الكونية إلى تضمين مرجعي. أما الحكام الجدد فتم تحسينهم بشكل كامل لمهمة التقييم نفسها. ينعكس الفرق في الأداء أكثر من أي اختراق معماري.

تحذير يضيفه المؤلفون: الحقيقة الأساسية المستخدمة هنا هي نفسها عبارة عن مؤشر — تداخل الكلمات على مستوى الرموز بدلاً من الحكم البشري. تتوافق الحكام جيدًا مع هذا المقياس، لكن ما إذا كان تداخل الكلمات يعكس بشكل موثوق رد فعل بشري على جودة الرد هو سؤال منفصل لم يُحل بعد.

ميزات موجهة للنشر تصاحب الحكام. خط أنابيب متسلسل يوجه الاستفسارات عبر النموذج الخفيف أولاً ويصعد إلى نماذج أثقل فقط عندما تكون الدرجات غامضة، مما يقلل تكاليف التقييم بنسبة تصل إلى 72.7% عند أقصى حد، رغم أن الارتباط ينخفض إلى حوالي 0.51 في ذلك الإعداد. آلية معايرة عبر الإنترنت، تعمل بدون ضبط يدوي، تحدد باستمرار الجودة الدلالية كإشارة سائدة وتعدل الأوزان وفقًا لذلك، معطية إياها 4.7 أضعاف وزنها الابتدائي مع مرور الوقت.

أين لا تزال تواجه النظام صعوبة

يؤدي الحكام أداء غير متساوٍ عبر أنواع المهام. في الإجابة على الأسئلة، يصل الارتباط إلى 0.830. في التلخيص، ينخفض إلى 0.199. يعزو الورق ذلك ليس إلى فشل الحكام أنفسهم، بل إلى مقياس التقييم المستخدم أثناء التدريب: تداخل الكلمات الخام هو مقياس ضعيف لجودة التلخيص، لذلك تتعلم النماذج المدربة عليه تتبع إشارة ضعيفة. يصف المؤلفون ذلك بأنه المشكلة المفتوحة الأساسية بدلاً من أن يكون قيودًا معروفة تُدار بصمت.

هذا الإطار يتوافق مع كيفية عرض الورقة لنتائجها بشكل عام — منهجيًا، مع حالات الفشل كما هو موضح بوضوح مثل التحسينات. بعد أربعة أوراق في سلسلة الأبحاث هذه، يبدو العمل أقل كإعلان عن منتج وأكثر كفريق يقترب تدريجيًا من سد الثغرات في شيء يعتزمون نشره فعليًا.

الإفصاح: يُقدم هذا المحتوى من طرف طرف ثالث. لا يوافق crypto.news ولا مؤلف المقالة على أي منتج مذكور في هذه الصفحة. يجب على المستخدمين إجراء أبحاثهم الخاصة قبل اتخاذ أي إجراء متعلق بالشركة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت