تم إعادة تقييم GPT-5.5 '9.7 تريليون معلمة': تم تعديلها إلى حوالي 1.5 تريليون

وفقًا للمراقبة التي أجرتها Beating، نشر الباحثان في الذكاء الاصطناعي لورانس تشان وبينو ستورجون مراجعة لورقة بحثية كتبها كبير العلماء في Pine AI لي بو جي بعنوان “استقصاءات المعرفة غير القابلة للضغط: تقدير عدد المعلمات لنماذج اللغة الكبيرة ذات الصندوق الأسود استنادًا إلى سعة الحقائق”. قدرت الورقة الأصلية أن GPT-5.5 يبلغ حوالي 9.7 تيراوحدة، وClaude أوبوس 4.7 حوالي 4.0 تيراوحدة، وo1 حوالي 3.5 تيراوحدة باستخدام 1400 سؤال تريفيا “لوزن” النماذج مغلقة المصدر. يعتقد المراجعون أن النهج نفسه ذو قيمة، لكن الأرقام الأصلية كانت مبالغًا فيها بشكل كبير بسبب معايير التقييم وجودة الأسئلة. المشكلة الرئيسية تكمن في “درجة الأرضية”. قسمت الورقة الأصلية الأسئلة إلى سبع مستويات صعوبة، وعندما يجيب النموذج على الكثير من الأسئلة بشكل خاطئ عند مستوى معين، يمكن أن تصبح الدرجة سالبية نظريًا؛ ومع ذلك، فإن الكود فعليًا أعاد الحد الأدنى للدرجة لكل مستوى إلى 0. هذا أدى إلى تضخيم فجوة الأداء بين النماذج المتطورة على الأسئلة الصعبة وزاد من عدد المعلمات المستنتج. تدعي الورقة أن هذا لم يُعالج بهذه الطريقة، لكن الكود والنتائج المنشورة استخدمتا هذا المعالجة. بعد إزالة “درجة الأرضية”، انخفض ميل التناسب من 6.79 إلى 3.56. يمكن فهم هذا الميل على أنه “لكل زيادة نقطة في الدرجة، كم يتغير النموذج من حيث عدد المعلمات”، وميل أصغر يشير إلى أن الفرق في الدرجة نفسه لم يعد يعادل فرقًا مبالغًا فيه في عدد المعلمات. انخفضت قيمة R² من 0.917 إلى 0.815، مما يدل على أن منحنى التناسب بين “الدرجة وعدد المعلمات” ليس مستقرًا كما في الورقة الأصلية. اتسعت فترة التوقع بنسبة 90% من 3.0 أضعاف إلى 5.7 أضعاف، مما يشير إلى هامش خطأ أوسع وأن الأرقام الفردية لا ينبغي الاعتماد عليها بشكل كبير. كما أشار المراجعون إلى أن 131 من أصل 1400 سؤالًا كانت بها غموض أو إجابات غير صحيحة، وهو ما يمثل 9.4%. كانت المشكلات مركزة بشكل رئيسي في الأسئلة الصعبة، التي كانت تُستخدم لتمييز النماذج المتطورة مغلقة المصدر مثل GPT-5.5 وClaude أوبوس 4.7. وفقًا لمعاييرهم المعدلة، تم تقليل تقدير GPT-5.5 من 9659 مليار إلى 1458 مليار، مع فترة توقع 90% تتراوح بين 256 مليار و8311 مليار؛ وتم تقليل Claude أوبوس 4.7 من 4042 مليار إلى 1132 مليار؛ وتم تقليل GPT-5 من 4088 مليار إلى 1330 مليار. كما أكد المراجعون أن 1.5 تيراوحدة لا ينبغي اعتبارها العدد الحقيقي للمعلمات لـ GPT-5.5. استنتاج أكثر دقة هو أن “طريقة وزن التريفيا” هذه حساسة جدًا لتفاصيل التقييم وجودة الأسئلة، وأن الأرقام مثل 9.7 تيراوحدة لا يمكن استخدامها مباشرة كمقياس وزن للنماذج مغلقة المصدر.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت