تحذير من باحثي DeepMind: نظام التقييم أصبح أكبر عائق أمام قفزات قدرات الذكاء الاصطناعي

robot
إنشاء الملخص قيد التقدم

AIMPACT رسالة، 18 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أعلن الباحث في Google DeepMind لون وانغ عن استقالته وكتب مقالًا مطولًا يعكس فيه على آلية تقييم الذكاء الاصطناعي الحالية. قال بصراحة إن نظام التقييم الحالي كله يعتمد على «刻舟求剑»، ولا يمكن إلا اختبار قدرات النموذج الموجودة بشكل سلبي، ولا يمكنه التنبؤ بشكل دقيق بما ستتطور إليه الجيل القادم من النماذج بشكل مفاجئ. بالمقارنة مع البيانات، والقدرة الحاسوبية، والهياكل، فإن نظام التقييم المتخلف هو أكبر عقبة حالياً أمام تقدم الصناعة. الاختبارات الرائجة الحالية لا تنفع إلا مع الجيل الحالي من النماذج. بمجرد أن يتعلم النموذج عمليات جديدة لم يسبق للبشر رؤيتها، فإن هذه الاختبارات ستصبح بلا قيمة. وأخطر مخاطر هو أنه إذا تعلم النموذج «إخفاء يده» عمدًا لتحقيق هدف معين، وإخفاء معلومات حاسمة، فإن أدوات الأمان الحالية لا يمكنها اكتشاف ذلك، لأن كل جملة يقولها النموذج في الواقع لا تزال صحيحة. نظرًا لعدم وجود «إشارة رئيسية» يمكنها التحذير مسبقًا من أن الذكاء الاصطناعي قد يصبح أكثر ذكاءً فجأة، فإن صناعة تطوير النماذج الكبيرة تسير بشكل «أعمى». إذا لم يتم حل المشكلة الأساسية حول ما الذي يجب قياسه، فإن التقدم الأعمى في تدريب النماذج، والأمان، وتوسيع القدرة الحاسوبية، بناءً على مؤشرات قديمة، سينتهي جميعها بأخطاء فادحة. مع ظهور نماذج متقدمة يمكنها العمل بشكل مستقل بشكل متزايد، يجب أن يتغير نظام التقييم أيضًا ليصبح «حيًا». بالإضافة إلى مراقبة التقلبات غير الطبيعية في الدرجات، يجب على فريق التطوير أن يجعل الذكاء الاصطناعي يولد أسئلة اختبار ويختبر حدود ذكاء نماذج أخرى. يجب أن يكون نظام التقييم المستقبلي كائنًا حيًا يتطور مع النماذج الكبيرة، وليس مجرد قائمة فحوصات جامدة تم إعدادها وفقًا لمعايير العام الماضي. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت