موقع بيجيوا نيوز، الباحث في OpenAI نوام براون أدلى برأيه، مشيرًا إلى أنه مع تحسين أداء نماذج الذكاء الاصطناعي، فإن درجات الاختبارات المعيارية التي تقيس جودة النموذج تتجه تدريجيًا نحو السيطرة على حسابات القدرة على الاستنتاج.


لم تعد الدرجة الثابتة والمنفردة تعكس المستوى الحقيقي للنموذج القوي، ويجب أن يتحول معيار التقييم في المستقبل إلى منحنى أداء يمتد بناءً على قدرة الاستنتاج أو عدد الرموز التي يتم توليدها.
كمثال على اختبار النموذج الجديد GPT-5.5، في الاختبارات التقليدية الأولية، لم يكن هناك تفوق واضح لـ GPT-5.5 مقارنة بـ GPT-5.4، ولكن بمجرد تخصيص المزيد من قدرة الاستنتاج، بدأ أداؤه في الارتفاع بشكل انفجاري.
حذر نوام براون من أن التقييمات الحالية للأمان البيولوجي أو الشبكي غالبًا لا تتضمن ميزانية استنتاج ثابتة، وعندما يستثمر الخصوم على المستوى الوطني أكثر من مليون دولار في مهمة معينة، فإن النموذج الذي كان يبدو آمنًا قد يتجاوز الخط الأحمر للخطر.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت