لون وانغ يغادر ويتأمل في تقييم الذكاء الاصطناعي: التقييم الحالي يمكنه اختبار النموذج الحالي فقط، ولا يمكنه التنبؤ بتطور الجيل القادم، مما يصبح أكبر عائق في الصناعة. إذا تعلم النموذج مهارات جديدة، أو أخفى معلومات حاسمة، فحتى أدوات الأمان الحالية يصعب عليها التحذير، وبالتالي يصبح التقييم "أعمى". في المستقبل، يجب أن يتطور التقييم والنماذج الكبيرة معًا، بحيث تقوم الذكاء الاصطناعي بطرح الأسئلة، واكتشاف الحدود، ليصبح كائنًا حيًا ديناميكيًا، وليس قائمة جامدة وفق معايير العام الماضي.

MeNews

2026-05-18 09:40:33

إنشاء الملخص قيد التقدم

AIMPACT رسالة، 18 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أعلن الباحث في Google DeepMind لون وانغ عن استقالته وكتب مقالًا مطولًا يعكس فيه على آلية تقييم الذكاء الاصطناعي الحالية. قال بصراحة إن نظام التقييم الحالي كله يعتمد على «刻舟求剑»، ولا يمكن إلا اختبار قدرات النموذج الموجودة بشكل سلبي، ولا يمكنه التنبؤ بشكل دقيق بما ستتطور إليه الجيل القادم من النماذج بشكل مفاجئ. بالمقارنة مع البيانات، والقدرة الحاسوبية، والهياكل، فإن نظام التقييم المتخلف هو أكبر عقبة حالياً أمام تقدم الصناعة. الاختبارات الرائجة الحالية لا تنفع إلا مع الجيل الحالي من النماذج. بمجرد أن يتعلم النموذج عمليات جديدة لم يسبق للبشر رؤيتها، فإن هذه الاختبارات ستصبح بلا قيمة. وأخطر مخاطر هو أنه إذا تعلم النموذج «إخفاء يده» عمدًا لتحقيق هدف معين، وإخفاء معلومات حاسمة، فإن أدوات الأمان الحالية لا يمكنها اكتشاف ذلك، لأن كل جملة يقولها النموذج في الواقع لا تزال صحيحة. نظرًا لعدم وجود «إشارة رئيسية» يمكنها التحذير مسبقًا من أن الذكاء الاصطناعي قد يصبح أكثر ذكاءً فجأة، فإن صناعة تطوير النماذج الكبيرة تسير بشكل «أعمى». إذا لم يتم حل المشكلة الأساسية حول ما الذي يجب قياسه، فإن التقدم الأعمى في تدريب النماذج، والأمان، وتوسيع القدرة الحاسوبية، بناءً على مؤشرات قديمة، سينتهي جميعها بأخطاء فادحة. مع ظهور نماذج متقدمة يمكنها العمل بشكل مستقل بشكل متزايد، يجب أن يتغير نظام التقييم أيضًا ليصبح «حيًا». بالإضافة إلى مراقبة التقلبات غير الطبيعية في الدرجات، يجب على فريق التطوير أن يجعل الذكاء الاصطناعي يولد أسئلة اختبار ويختبر حدود ذكاء نماذج أخرى. يجب أن يكون نظام التقييم المستقبلي كائنًا حيًا يتطور مع النماذج الكبيرة، وليس مجرد قائمة فحوصات جامدة تم إعدادها وفقًا لمعايير العام الماضي. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
91.46K درجة الشعبية
#
CryptoMarketDrops150KLiquidated
50.18M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
47.5K درجة الشعبية
#
#DailyPolymarketHotspot
1M درجة الشعبية
#
ZEC/HYPE/FLRStrength
3.83M درجة الشعبية

مُثبت

خريطة الموقع

تحذير من باحثي DeepMind: نظام التقييم أصبح أكبر عائق أمام قفزات قدرات الذكاء الاصطناعي

المواضيع الرائجة

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

مُثبت