SemiAnalysis أظهر التقييم الأفقي: عاد GPT-5.5 إلى الصدارة للمرة الأولى منذ نصف عام، كلود مسؤول عن تخطيط المشاريع الجديدة، وCodex مسؤول عن إصلاحات مركزة على الاستنتاج؛ كلود يعيد النسخ ولكن مع الكثير من البيانات المزيفة، وبيانات Codex أدق. تم تغيير المعيار إلى Expert-SWE، حيث يتخلف GPT-5.5 عن Opus 4.7 في هذا المعيار، وOpus 4.7 أضافت محول رموز جديد يزيد من عدد الرموز بنسبة تصل إلى 35%. DeepSeek V4 يتبع الصدارة لكنه ليس في المقدمة، والكتابة باللغة الصينية لا تزال أفضل من المنافسين. يجب قياس السعر بناءً على تكلفة كل مهمة، سعر GPT-5.5 لكل وحدة أعلى بمقدار ضعف GPT-5.4، لكن التكلفة الفعلية تعتمد على عدد الرموز المستخدمة. نسبة الإدخال والإخراج لـ Codex حوالي 80:1، وClaude Code حوالي 100:1.

BlockBeatNews

2026-04-27 05:22:31

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت وكالة تحليل أشباه الموصلات والذكاء الاصطناعي SemiAnalysis تقييمًا مقارنًا للمساعد البرمجي، شمل GPT-5.5 و Opus 4.7 و DeepSeek V4. الاستنتاجات الأساسية: يعد GPT-5.5 أول نموذج برمجي من OpenAI يعود إلى الطليعة بعد نصف عام، وبدأ مهندسو SemiAnalysis بالتنقل بين Codex و Claude Code، بعد أن كان الجميع تقريبًا يستخدمون Claude سابقًا. يعتمد GPT-5.5 على تدريب مسبق جديد يُعرف باسم «Spud»، وهو أول توسع في حجم التدريب المسبق بعد GPT-4.5 من OpenAI.

في الاختبارات العملية، تم تشكيل تقسيم العمل: يقوم Claude بتخطيط المشاريع الجديدة والبناء الأولي، بينما يتولى Codex إصلاح الأخطاء المعقدة التي تتطلب استنتاجات. يتفوق Codex في فهم هياكل البيانات والاستنتاج المنطقي، لكنه غير جيد في استنتاج نوايا المستخدم الغامضة. في مهمة لوحة تحكم واحدة، قام Claude تلقائيًا بإعادة إنشاء تخطيط الصفحة المرجعية لكن مع بيانات مفبركة بكميات كبيرة، بينما تخطى Codex التخطيط لكنه كان أكثر دقة في البيانات.

يكشف المقال عن تفاصيل عملية اختبار معيارية: في فبراير من هذا العام، كتب OpenAI مدونة تدعو الصناعة لاستخدام SWE-bench Pro كمعيار جديد لقياس البرمجة، لكن إعلان GPT-5.5 استبدله بمعيار جديد يُسمى «Expert-SWE». السبب مخفي في النص الصغير في أسفل الإعلان: تم تجاوز GPT-5.5 بواسطة Opus 4.7 على منصة SWE-bench Pro، وهو أقل بكثير من Mythos من شركة Anthropic الذي لم يُعلن عنه بعد (77.8%).

أما بالنسبة لـ Opus 4.7، فقد أصدرت شركة Anthropic بعد أسبوع من الإطلاق تقرير تحليل ما بعد الحدث (postmortem)، واعترفت بوجود ثلاثة أخطاء برمجية في Claude Code بين مارس وأبريل، استمرت لعدة أسابيع، وأثرت على معظم المستخدمين. وكان العديد من المهندسين قد أشاروا سابقًا إلى تراجع أداء 4.6، لكن تم اعتبار ذلك مجرد انطباع شخصي. بالإضافة إلى ذلك، فإن المعجم الجديد لـ 4.7 يؤدي إلى زيادة استهلاك الرموز (tokens) بنسبة تصل إلى 35%، وأقرت Anthropic بذلك، مما يعادل زيادة غير مباشرة في السعر.

تم تصنيف DeepSeek V4 على أنه «يتابع التطور لكنه ليس في المقدمة»، وسيكون أقل تكلفة بديل للنماذج المغلقة المصدر. كما ذكر المقال أن «Claude لا يزال يتفوق على DeepSeek V4 Pro في المهام الصعبة باللغة الصينية»، وعلق على ذلك بقوله: «Claude فاز على النموذج الصيني باستخدام لغته الخاصة».

اقترح المقال مفهومًا رئيسيًا: يجب أن يُقاس سعر النموذج بناءً على «تكلفة كل مهمة» وليس «تكلفة كل رمز». سعر GPT-5.5 هو ضعف سعر GPT-5.4 (5 دولارات للإدخال و30 دولارًا لكل مليون رمز للإخراج)، لكنه يُنجز نفس المهمة باستخدام رموز أقل، مما قد يجعل التكلفة الفعلية غير أعلى. تظهر البيانات الأولية من SemiAnalysis أن نسبة الإدخال إلى الإخراج لـ Codex هي 80:1، وهي أقل من 100:1 لنموذج Claude Code.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
277.12K درجة الشعبية
#
比特币Breaks79K
11.67M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
34.28K درجة الشعبية
#
CryptoMarketsRiseBroadly
86.72K درجة الشعبية
#
WHCADinnerShootingIncident
14.1K درجة الشعبية

تثبيت

خريطة الموقع

اختبار SemiAnalysis الفعلي: عاد GPT-5.5 إلى الطليعة، لكن OpenAI أخفى سرًا إنجازًا تفوق عليه Opus

المواضيع الرائجة

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

تثبيت