موقع بيجيوا نيوز، الباحث في OpenAI نوام براون أدلى برأيه، مشيرًا إلى أنه مع تحسين أداء نماذج الذكاء الاصطناعي، فإن درجات الاختبارات المعيارية التي تقيس جودة النموذج تتجه تدريجيًا نحو السيطرة على حسابات القدرة على الاستنتاج.


لم تعد الدرجة الثابتة والمنفردة تعكس المستوى الحقيقي للنموذج القوي، ويجب أن يتحول معيار التقييم في المستقبل إلى منحنى أداء يمتد بناءً على قدرة الاستنتاج أو عدد الرموز التي يتم توليدها.
كمثال على اختبار النموذج الجديد GPT-5.5، في الاختبارات التقليدية الأولية، لم يكن هناك تفوق واضح لـ GPT-5.5 مقارنة بـ GPT-5.4، ولكن بمجرد تخصيص المزيد من قدرة الاستنتاج، بدأ أداؤه في الارتفاع بشكل انفجاري.
حذر نوام براون من أن التقييمات الحالية للأمان البيولوجي أو الشبكي غالبًا لا تتضمن ميزانية استنتاج ثابتة، وعندما يستثمر الخصوم على المستوى الوطني أكثر من مليون دولار في مهمة معينة، فإن النموذج الذي كان يبدو آمنًا قد يتجاوز الخط الأحمر للخطر.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено