تحذير من باحثي DeepMind: نظام التقييم أصبح أكبر عائق أمام قفزات قدرات الذكاء الاصطناعي

AIMPACT رسالة، 18 مايو (UTC+8)، وفقًا لمراقبة Beating من 动察، أعلن الباحث في Google DeepMind لون وانغ عن استقالته وكتب مقالًا مطولًا يعكس فيه على آلية تقييم الذكاء الاصطناعي الحالية. قال بصراحة إن نظام التقييم الحالي كله «حفر السفينة لطلب السيف»، ولا يمكن إلا أن يختبر بشكل سلبي القدرات الموجودة بالفعل في النموذج، ولا يمكنه التنبؤ بما ستتطور إليه قدرات النموذج في الجيل القادم بشكل مفاجئ. بالمقارنة مع البيانات، والحوسبة، والهياكل، فإن نظام التقييم المتخلف هو أكبر عقبة حالياً أمام تقدم الصناعة. الاختبارات الرائجة الحالية فقط فعالة مع الجيل الحالي من النماذج. بمجرد أن يتعلم النموذج عمليات جديدة لم يسبق للبشر رؤيتها، ستصبح هذه الاختبارات جميعها بلا قيمة. وأخطر مخاطر هو أنه إذا تعلم النموذج «إخفاء يده» عمدًا لتحقيق هدف معين، وإخفاء معلومات حاسمة، فإن أدوات الأمان الحالية لا يمكنها اكتشاف ذلك، لأن كل جملة يقولها النموذج في الواقع لا تزال صحيحة. نظرًا لعدم وجود «إشارة رئيسية» يمكنها التحذير مسبقًا من أن الذكاء الاصطناعي قد يصبح أكثر ذكاءً فجأة، فإن صناعة تطوير النماذج الكبيرة تسير بشكل «طيار أعمى». إذا لم يتم حل المشكلة الأساسية حول ما الذي يجب قياسه، فإن التقدم الأعمى في تدريب النماذج، والأمان، وتوسيع الحوسبة، استنادًا إلى المقاييس القديمة، سينتهي جميعه بأخطاء فادحة. مع تزايد نماذج الجبهة التي يمكنها العمل بشكل مستقل، يجب أن تتطور أنظمة التقييم أيضًا «وتصبح حية». بالإضافة إلى مراقبة التقلبات غير الطبيعية في النتائج، يجب على فرق التطوير أن تجعل الذكاء الاصطناعي يولد أسئلة اختبار ويختبر حدود الذكاء الاصطناعي الآخر. يجب أن يكون نظام التقييم المستقبلي كائنًا حيًا يتطور مع النماذج الكبيرة، وليس مجرد قائمة فحوصات جامدة تم تصميمها وفقًا لمعايير العام الماضي. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت