تحذير من باحثي DeepMind: نظام التقييم أصبح أكبر عائق أمام قفزات قدرات الذكاء الاصطناعي

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 18 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أعلن الباحث في Google DeepMind لون وانغ عن استقالته وكتب مقالًا طويلًا يعكس فيه نظام تقييم الذكاء الاصطناعي الحالي.
قال بصراحة، إن نظام التقييم الحالي كله يعتمد على «刻舟求剑»، ولا يمكن إلا اختبار قدرات النموذج الموجودة بشكل سلبي، ولا يمكنه التنبؤ بما ستتطور إليه الجيل القادم من النماذج بشكل مفاجئ.
بالنسبة للبيانات، والحوسبة، والهياكل، فإن نظام التقييم المتخلف هو أكبر عقبة تمنع الصناعة من التقدم.
الاختبارات الحالية الرائجة فقط فعالة على الجيل الحالي من النماذج.
بمجرد أن يتعلم النموذج عمليات جديدة لم يسبق للبشر رؤيتها، فإن هذه الاختبارات ستصبح ورقًا باليًا جميعها.
أخطر مخاطر هو أنه إذا تعلم النموذج إخفاء معلومات مهمة عمدًا لتحقيق هدف معين، فإن أدوات الأمان الحالية لا يمكنها اكتشاف ذلك، لأن كل جملة يقولها النموذج في الواقع لا تزال صحيحة.
نظرًا لعدم وجود «إشارة رئيسية» يمكنها التحذير مسبقًا من أن الذكاء الاصطناعي قد يصبح أكثر ذكاءً فجأة، فإن تطوير النماذج الكبيرة في الصناعة يتم بشكل «أعمى».
إذا لم يتم حل المشكلة الأساسية حول ما الذي يجب قياسه، فإن التقدم الأعمى في تدريب النماذج، والأمان، وتوسيع الحوسبة بناءً على المعايير القديمة، سينتهي جميعها بأخطاء فادحة.
في مواجهة النماذج المتقدمة التي يمكنها العمل بشكل مستقل بشكل متزايد، يجب أن يتكيف نظام التقييم أيضًا.
بالإضافة إلى مراقبة التقلبات غير الطبيعية في الدرجات، يجب على فريق التطوير أن يجعل الذكاء الاصطناعي يولد أسئلة اختبار بنفسه ويختبر حدود الذكاء الاصطناعي الآخر.
يجب أن يكون نظام التقييم المستقبلي كائنًا حيًا يتطور مع النماذج الكبيرة، وليس مجرد قائمة فحوصات جامدة تم تصميمها وفقًا لمعايير العام الماضي.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت