اختبار SemiAnalysis الفعلي: عاد GPT-5.5 إلى الطليعة، لكن OpenAI أخفى سرًا إنجازًا تفوق عليه Opus

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت وكالة تحليل أشباه الموصلات والذكاء الاصطناعي SemiAnalysis تقييمًا مقارنًا للمساعد البرمجي، شمل GPT-5.5 و Opus 4.7 و DeepSeek V4. الاستنتاجات الأساسية: يعد GPT-5.5 أول نموذج برمجي من OpenAI يعود إلى الطليعة بعد نصف عام، وبدأ مهندسو SemiAnalysis بالتنقل بين Codex و Claude Code، بعد أن كان الجميع تقريبًا يستخدمون Claude سابقًا. يعتمد GPT-5.5 على تدريب مسبق جديد يُعرف باسم «Spud»، وهو أول توسع في حجم التدريب المسبق بعد GPT-4.5 من OpenAI.

في الاختبارات العملية، تم تشكيل تقسيم العمل: يقوم Claude بتخطيط المشاريع الجديدة والبناء الأولي، بينما يتولى Codex إصلاح الأخطاء المعقدة التي تتطلب استنتاجات. يتفوق Codex في فهم هياكل البيانات والاستنتاج المنطقي، لكنه غير جيد في استنتاج نوايا المستخدم الغامضة. في مهمة لوحة تحكم واحدة، قام Claude تلقائيًا بإعادة إنشاء تخطيط الصفحة المرجعية لكن مع بيانات مفبركة بكميات كبيرة، بينما تخطى Codex التخطيط لكنه كان أكثر دقة في البيانات.

يكشف المقال عن تفاصيل عملية اختبار معيارية: في فبراير من هذا العام، كتب OpenAI مدونة تدعو الصناعة لاستخدام SWE-bench Pro كمعيار جديد لقياس البرمجة، لكن إعلان GPT-5.5 استبدله بمعيار جديد يُسمى «Expert-SWE». السبب مخفي في النص الصغير في أسفل الإعلان: تم تجاوز GPT-5.5 بواسطة Opus 4.7 على منصة SWE-bench Pro، وهو أقل بكثير من Mythos من شركة Anthropic الذي لم يُعلن عنه بعد (77.8%).

أما بالنسبة لـ Opus 4.7، فقد أصدرت شركة Anthropic بعد أسبوع من الإطلاق تقرير تحليل ما بعد الحدث (postmortem)، واعترفت بوجود ثلاثة أخطاء برمجية في Claude Code بين مارس وأبريل، استمرت لعدة أسابيع، وأثرت على معظم المستخدمين. وكان العديد من المهندسين قد أشاروا سابقًا إلى تراجع أداء 4.6، لكن تم اعتبار ذلك مجرد انطباع شخصي. بالإضافة إلى ذلك، فإن المعجم الجديد لـ 4.7 يؤدي إلى زيادة استهلاك الرموز (tokens) بنسبة تصل إلى 35%، وأقرت Anthropic بذلك، مما يعادل زيادة غير مباشرة في السعر.

تم تصنيف DeepSeek V4 على أنه «يتابع التطور لكنه ليس في المقدمة»، وسيكون أقل تكلفة بديل للنماذج المغلقة المصدر. كما ذكر المقال أن «Claude لا يزال يتفوق على DeepSeek V4 Pro في المهام الصعبة باللغة الصينية»، وعلق على ذلك بقوله: «Claude فاز على النموذج الصيني باستخدام لغته الخاصة».

اقترح المقال مفهومًا رئيسيًا: يجب أن يُقاس سعر النموذج بناءً على «تكلفة كل مهمة» وليس «تكلفة كل رمز». سعر GPT-5.5 هو ضعف سعر GPT-5.4 (5 دولارات للإدخال و30 دولارًا لكل مليون رمز للإخراج)، لكنه يُنجز نفس المهمة باستخدام رموز أقل، مما قد يجعل التكلفة الفعلية غير أعلى. تظهر البيانات الأولية من SemiAnalysis أن نسبة الإدخال إلى الإخراج لـ Codex هي 80:1، وهي أقل من 100:1 لنموذج Claude Code.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت