المؤلف: لي هيلون، تينسنت تكنولوجيفي 23 أبريل بالتوقيت المحلي، أطلقت OpenAI رسميًا الجيل الجديد من النموذج الرائد GPT-5.5، ووصفتها رسميًا بأنها "مستوى ذكي جديد موجه نحو العمل الحقيقي"، وهي خطوة مهمة نحو طريقة عمل حاسوبية جديدة.تركزت النقاط الأساسية في هذا الإصدار على نقطتين: الأولى هي الاختراق في مستوى الكفاءة: بنفس التأخير، أصبح النموذج أكبر، لكن سرعته لم تتباطأ. وصل حجم نافذة السياق في GPT-5.5 إلى 100 ألف توكن، لكنه ليس مجرد ترقية لقدرات GPT-5.4، بل حقق ذكاءً أعلى مع نفس مستوى التأخير من حيث الكفاءة. الثانية هي أن GPT-5.5 خلال عملية التدريب، شارك في تحسين بنية تحتية لاستنتاجه الخاص. ببساطة، تعلم الذكاء الاصطناعي للمرة الأولى كيفية ضبط معاييره بنفسه. في اختبار سير عمل الأوامر المعقدة Terminal-Bench 2.0

金色财经_

2026-04-24 13:51:54

المؤلف: لي هيلون، تينسنت تكنولوجي

بتوقيت المحلي في 23 أبريل، أطلقت OpenAI رسميًا الجيل الجديد من النموذج الرائد GPT-5.5، ووصفتها رسميًا بأنها “طبقة ذكية جديدة موجهة للعمل الحقيقي”، وهي خطوة مهمة نحو أسلوب عمل حاسوبي جديد كليًا.

ركزت هذه المرة على نقطتين رئيسيتين:

أولاً، اختراق في مستوى الكفاءة: بنفس التأخير، النموذج أصبح أكبر، لكن سرعته لم تتباطأ. وصل حجم نافذة السياق في GPT-5.5 إلى 100 ألف توكن، لكنه ليس مجرد ترقية لقدرات GPT-5.4، بل حقق ذكاءً أعلى مع نفس مستوى التأخير من حيث الكفاءة.
ثانيًا، خلال تدريب GPT-5.5، شارك النموذج في تحسين بنية البنية التحتية لعملية استنتاجه الذاتية. باختصار، تعلم الذكاء الاصطناعي للمرة الأولى كيف يساعد نفسه في ضبط المعلمات.

في اختبار Terminal-Bench 2.0 الذي يقيم سير عمل الأوامر المعقدة، حصل GPT-5.5 على 82.7%، متفوقًا على Claude Opus 4.7 الذي حقق 69.4% بأكثر من 13 نقطة مئوية؛ وفي اختبار OSWorld-Verified الذي يقيم قدرة الذكاء الاصطناعي على تشغيل حاسوب حقيقي بشكل مستقل، كانت نسبة النجاح 78.7%، متجاوزة الحد البشري؛ وفي اختبار GDPval الذي يقيم أداء المهام المعرفية عبر 44 مهنة، حقق 84.9% من المهام مستوى أو تفوق على خبراء الصناعة.

لكن، سعر GPT-5.5 ارتفع بشكل واضح أيضًا.

سعر API هو 5 دولارات لكل مليون توكن إدخال، و30 دولارًا للمخرجات، وهو ضعف سعر GPT-5.4 (2.50 دولار لكل مليون توكن إدخال، و15 دولارًا للمخرجات)، لكن الشركة أكدت أن كمية التوكنات اللازمة لأداء نفس المهام انخفضت بشكل كبير، لذلك قد لا يكون التكلفة الإجمالية مرتفعة بشكل ملحوظ. سعر API الخاص بـ GPT-5.5 Pro هو 30 دولارًا لكل مليون توكن إدخال، و180 دولارًا للمخرجات. مع معالجة دفعات مجمعة وتسعير مرن، يتم تقديم خصم نصف السعر، مع أولوية المعالجة مقابل 2.5 ضعف السعر القياسي.

في ChatGPT، تم إطلاق GPT-5.5 تحت اسم “GPT-5.5 Thinking”، تدريجيًا يحل محل الإصدارات السابقة.

تصميم جديد صغير هو: قبل أن يبدأ النموذج في التفكير، يعطي ملخصًا لخطته، ويمكن للمستخدم التدخل في أي وقت أثناء التنفيذ، وتعديل الاتجاه.

باختصار، إذا أردت تلخيص معنى GPT-5.5 في جملة واحدة: النماذج السابقة كانت مجموعة من القدرات، أما GPT-5.5 فهو أقرب إلى نظام عمل مخطط، ويفحص، ويواصل التقدم.

84.9% من المهام تصل لمستوى محترف

صورة: مقارنة GPT-5.5 مع المنافسين في اختبارات Terminal-Bench 2.0، GDPval، و OSWorld-Verified

لنبدأ بتقييم أداء النموذج في سيناريوهات مهنية حقيقية. استخدمت OpenAI معيارًا يسمى “GDPval”، الذي يتطلب من النموذج إكمال مجموعة كاملة من المهام المهنية. يغطي الاختبار 44 سيناريو مهني، بما في ذلك النمذجة المالية، التحليل القانوني، تقارير علوم البيانات، تخطيط العمليات، وغيرها.

النتيجة: حقق GPT-5.5 في 84.9% من المهام مستوى أو تفوق على خبراء الصناعة. بالمقارنة، كانت نتائج GPT-5.4 بنسبة 83.0%، وClaude Opus 4.7 بنسبة 80.3%، وGemini 3.1 Pro بنسبة 67.3%.

هذه الفجوة لا تقتصر على المجموع الكلي. في مهام النمذجة باستخدام جداول البيانات، حصل GPT-5.5 على 88.5% في الاختبارات الداخلية؛ وفي نمذجة بمستوى البنوك الاستثمارية، كان الأداء متقدمًا أيضًا على الإصدارات السابقة. وردود الفعل من المختبرين الأوائل كانت متسقة: ردود GPT-5.5 Pro كانت أكثر شمولية، وهيكلية، وذات فائدة عملية مقارنة بـ GPT-5.4 Pro، خاصة في مجالات الأعمال، القانون، التعليم، وعلوم البيانات.

الأرقام وحدها قد تمل، لذا كشفت OpenAI عن تفاصيل داخلية مباشرة.

قالت الشركة إن أكثر من 85% من موظفيها يستخدمون Codex أسبوعيًا، في أقسام المالية، الإعلام، التسويق، المنتجات، وعلوم البيانات. استخدم فريق الإعلام النموذج لتحليل بيانات الدعوات للخطابات على مدى ستة أشهر، وأنشأوا عملية تصنيف آلية؛ وفريق المالية راجع 24,771 نموذج K-1 الضريبي، بإجمالي 71,637 صفحة، وأنهوا العمل قبل أسبوعين من الموعد المعتاد؛ وفريق التسويق استخدمه لإنشاء تقارير أسبوعية تلقائيًا، موفرًا لكل فرد من 5 إلى 10 ساعات أسبوعيًا.

هذه ليست مجرد عروض تجريبية، بل أصبحت جزءًا من الروتين اليومي للعمل.

أقوى نموذج برمجة مستقل

قالت OpenAI إن GPT-5.5 هو الآن أقوى نموذج برمجة مستقل لديها.

في اختبار Terminal-Bench 2.0 (الذي يقيم سير عمل الأوامر المعقدة، ويتطلب تخطيطًا، وتكرارًا، وتنسيق أدوات)، حصل GPT-5.5 على 82.7%، مقابل 75.1% لـ GPT-5.4، بزيادة تقارب 8 نقاط مئوية، مع استهلاك توكن أقل. في اختبار SWE-Bench Pro (تقييم القدرة على حل مشكلات GitHub بشكل فوري)، حصل GPT-5.5 على 58.6%. وفي تقييم Expert-SWE الداخلي (مشاريع برمجة طويلة المدى، ومتوسط زمن إنجازها حوالي 20 ساعة يدويًا)، تفوق GPT-5.5 أيضًا على GPT-5.4.

صورة: مخطط نقاط GPT-5.5 في Terminal-Bench 2.0 و Expert-SWE

بفضل GPT-5.5، أصبح Codex قادرًا على بدء من كلمة واحدة، وإكمال عملية تطوير كاملة من توليد الكود، واختباره، وتصحيح الأخطاء، وتصحيح التصورات البصرية بشكل مستقل.

عرضت OpenAI نموذجًا تجريبيًا يُظهر بناء مهمة فضائية باستخدام بيانات حقيقية من ناسا، يدعم تفاعل ثلاثي الأبعاد، ومحاكاة مدارات بدقة فيزيائية حقيقية؛ وأيضًا رصد الزلازل من خلال بيانات مباشرة وتصويرها، مما يدل على أن النموذج أصبح قادرًا على استدعاء واجهات برمجة التطبيقات الخارجية، ومعالجة البيانات الديناميكية، وعرض النتائج بشكل حي.

أما عن ردود الفعل، فذكر مؤسس ومدير شركة Every، دان شيبر، تجربة شخصية: كان قد واجه خطأ برمجي بعد إطلاق المنتج، ولم يتمكن من إصلاحه خلال أيام، واضطر لاستدعاء أقوى مهندسي الشركة لإعادة كتابة جزء من النظام. بعد إصدار GPT-5.5، قام بتجربة — وضع النموذج في الحالة التي لم يُصلح فيها الخطأ بعد، ليرى إن كان يمكنه التوصل لنفس الحلول التي توصل إليها المهندس. لم يستطع GPT-5.4 ذلك، لكن GPT-5.5 استطاع. ووصف الأمر قائلاً: “هذا أول نموذج برمجة أستخدمه يتميز بوضوح المفهوم بشكل حقيقي”.

تقييم مهندس Nvidia كان أكثر مباشرة: “فقدان الوصول إلى GPT-5.5 يشبه بتر طرف”.

وأضاف مؤسس Cursor والرئيس التنفيذي مايكل ترويل: أن GPT-5.5 أكثر ذكاءً، وأكثر صمودًا من GPT-5.4، ويمكنه الاستمرار في أداء المهام الطويلة والمعقدة لفترة أطول دون توقف مبكر — وهو ما تحتاجه الأعمال الهندسية بشكل أساسي.

العمل المعرفي: الذكاء الاصطناعي يستخدم الكمبيوتر لأول مرة

في اختبار OSWorld-Verified (الذي يقيم قدرة النموذج على تشغيل حاسوب حقيقي بشكل مستقل)، كانت نسبة النجاح 78.7% لـ GPT-5.5، متفوقة على GPT-5.4 التي كانت 75.0%، وأيضًا على Claude Opus 4.7 الذي حقق 78.0%.

وهذا ليس مجرد تحليل لصور شاشة، بل تحكم حقيقي في الشاشة: رؤية الواجهات، والنقر، والإدخال، والتبديل بين الأدوات، حتى إتمام المهمة. لأول مرة، يشعر المستخدم أن الذكاء الاصطناعي يمكنه فعلاً أن يشاركك في استخدام نفس الحاسوب.

وفي اختبار Tau2-bench الخاص بسير عمل خدمة العملاء عبر الهاتف، كانت دقة GPT-5.5 98.0% بدون تحسينات موجهة، مقابل 92.8% لـ GPT-5.4.

وهذا يدل على أن النموذج يفهم نية المهمة بشكل عميق، بحيث يمكنه التعامل مع حوارات معقدة ومتعددة الخطوات دون الحاجة لتصميم دقيق للمحفزات.

وفي قدرته على البحث عن أدوات، حقق GPT-5.5 في اختبار BrowseComp نسبة 84.4%، وGPT-5.5 Pro وصلت إلى 90.1%، مما يعكس قدرته على الاستمرار في استرجاع المعلومات ودمجها بشكل قوي في المهام البحثية التي تتطلب استرجاعًا من مصادر متعددة.

البحث العلمي: مساعدة في اكتشاف إثباتات رياضية جديدة

في هذا الإصدار، قد يكون أداء GPT-5.5 في المجال العلمي هو الأكثر إثارة للدهشة.

في السابق، كنا نعتبر الذكاء الاصطناعي أداة مساعدة في البحث العلمي، تستخدم في استعراض الأدبيات، وكتابة الكود، وتنظيم البيانات. لكن هذه المرة، لعب دوره بشكل أكثر جوهرية، وبدأ يشارك في المراحل الأساسية: الاستنتاجات المعقدة، وحتى الاكتشافات ذاتها.

في GeneBench (اختبار تحليل البيانات متعدد المراحل في علم الوراثة والبيولوجيا الكمية)، حصل GPT-5.5 على 25.0%، مقابل 19.0% لـ GPT-5.4. وهذه المهام عادةً تتطلب أيامًا من عمل الخبراء، ويجب على النموذج أن يراوغ البيانات المحتملة الخطأ، ويتعامل مع عوامل التداخل المخفية، ويطبق الأساليب الإحصائية الحديثة بشكل صحيح.

من خلال الرسوم البيانية، يتضح أن مع زيادة عدد التوكنات الناتجة، يظل أداء GPT-5.5 يتفوق على GPT-5.4، ويبدأ في التباعد بشكل واضح عند حوالي 15,000 توكن — مما يعني أن المهام الطويلة التي تتطلب استنتاجات عميقة، ستظهر فيها ميزة GPT-5.5 بشكل أكبر مع زيادة تعقيد المهمة.

وفي BixBench، الذي يقيم البيانات البيولوجية وتحليل المعلومات في العالم الحقيقي، حقق GPT-5.5 نسبة 80.5%، متفوقًا على GPT-5.4 الذي كان 74.0%، ويحتل مركزًا متقدمًا بين النماذج المنشورة.

الأهم من ذلك، هو حالة محددة: نسخة داخلية من GPT-5.5 مزودة بإطار أدوات مخصص، ساعدت في اكتشاف برهان رياضي جديد على عدد رامزي، وتم التحقق منه باستخدام أداة الإثبات الرسمية Lean. عدد رامزي هو أحد الأهداف الأساسية في الرياضيات التوافقية، وإنجازات هذا المجال نادرة جدًا، وصعبة تقنيًا. لم يكن النموذج مجرد تقديم كود أو شرح، بل ساهم فعليًا في تقديم برهان رياضي.

وفي التطبيق العملي، استخدم أستاذ الأحياء في معهد جاكسون، ديريا أونوتماز، GPT-5.5 Pro لتحليل مجموعة بيانات تعبر عن التعبير الجيني لـ 62 عينة، تحتوي على قرابة 28,000 جين، وقدم تقريرًا مفصلًا، وخلص إلى نتائج رئيسية وأسئلة بحثية — وقال إن هذا العمل عادةً يستغرق فريقًا شهورًا.

وأيضًا، استخدم أستاذ الرياضيات في جامعة آدم ميتيكيفيتش في بوزنان، بارطوش ناسكرينكي، بمساعدة كلمة واحدة فقط، Codex المبني على GPT-5.5، لبناء تطبيق في الجبر الهندسي خلال 11 دقيقة، يعرض تقاطع سطحين من الدرجة الثانية، ويحول المنحنى الناتج إلى نموذج ويرستراس. المعادلات المعروضة على اليمين يمكن استخدامها مباشرة في الأبحاث الرياضية لاحقًا، من خلال نموذج مستقل من بداية الكلمة حتى الأدوات البحثية القابلة للتشغيل.

صورة: لقطة شاشة لتطبيق الجبر الهندسي الذي بناه البروفيسور بارطوش ناسكرينكي — تصور تقاطع السطوح من الدرجة الثانية وحساب معادلة ويرستراس في الوقت الحقيقي

قال مؤسس شركة Axiom Bio، براندون وايت، بشكل مباشر: “إذا استمرت OpenAI في هذا الاتجاه، فإن أساس اكتشاف الأدوية سيتغير بحلول نهاية العام.”

كفاءة الاستنتاج: الذكاء الاصطناعي يساعد نفسه في تحسين بنيته التحتية

هناك تفصيل بسيط قد يُغفل، لكنه ربما هو الأهم من ناحية التقدم التقني.

GPT-5.5 هو نموذج أكبر وأقوى، لكنه في الخدمة الفعلية يستهلك توكنات بنفس معدل GPT-5.4. لتحقيق قدرات أعلى مع نفس مستوى التأخير، أعادت OpenAI تصميم نظام الاستنتاج بشكل كامل — وشارك Codex وGPT-5.5 بشكل مباشر في تحسينه.

من خلال رسم مؤشر التحليل الذكي Artificial Analysis، يمكن ملاحظة ذلك مباشرة: المحور الأفقي يمثل إجمالي التوكنات الناتجة (بمقياس لوغاريتمي)، والمحور الرأسي هو درجة الذكاء الشامل. تظهر منحنى GPT-5.5 تفوقًا واضحًا على GPT-5.4، وClaude Opus 4.7، وGemini 3.1 Pro Preview، والأهم من ذلك، أنه في المناطق التي يستهلك فيها التوكنات أقل، يحقق النموذج أداءً يعادل أو يتفوق على النماذج الأخرى التي تتطلب استهلاك توكنات أكثر — قدرة أقوى وتكلفة أقل، وهو ما يعكس بشكل مباشر “تحسين الكفاءة”.

صورة: مخطط مؤشر الذكاء Artificial Analysis

على وجه التحديد، كانت المشكلة التي واجهها الفريق هي توازن الحمل: سابقًا، كان يتم تقسيم الطلبات إلى كتل ثابتة لتوزيع الحمل على GPU، لكن التقسيم الثابت لم يكن مثاليًا لكل أنواع التدفقات. حلل Codex بيانات حركة المرور الإنتاجية لأسابيع، وكتب خوارزمية مخصصة لتحفيز الأداء، ورفع سرعة توليد التوكنات بأكثر من 20%.

كما أن GPT-5.5 تم تصميمه بالتعاون مع أنظمة NVIDIA GB200 وGB300 NVL72، وشارك في التدريب والتشغيل بشكل مشترك. بمعنى آخر، هذا الجيل من النماذج ساهم في تحسين بنية استنتاج الخدمة ذاتها — وهذا ليس مجازًا، بل هو تحسين حقيقي على مستوى النظام.

الأمن السيبراني: قدرات محسنة، وضوابط أكثر صرامة

حقق GPT-5.5 تقدمًا واضحًا في قدراته الأمنية السيبرانية. في اختبار CyberGym، حصل على 81.8%، مقابل 79.0% لـ GPT-5.4، و73.1% لـ Claude Opus 4.7. وفي تحدي “سيطرة على العلم” (CTF) الداخلي، كانت النتيجة 88.1% مقابل 83.7%.

صورة: مخطط الأعمدة في CyberGym ومخطط النقاط في تحدي CTF

قامت OpenAI بتصنيف قدرات GPT-5.5 في الأمن السيبراني والكيمياء/البيولوجيا على أنها “عالية” ضمن إطار الاستعداد للطوارئ، ولم تصل بعد إلى مستوى “حاسم”، لكنها أظهرت تقدمًا واضحًا مقارنةً بالسابق. وأكدت أيضًا أن أدوات التصنيف الجديدة الأكثر صرامة قد تكون غير مريحة للبعض في البداية، وستواصل التعديلات.

ولموازنة متطلبات الدفاع والقيود على الوصول، أطلقت OpenAI خطة “الوصول الموثوق للأمن السيبراني”: يمكن للباحثين الأمنيين والمرافق الحيوية الأساسية المؤهلين التقدم للحصول على صلاحيات وصول أوسع، لاستخدام قدرات الأمن السيبراني المتقدمة بأقل عوائق.

المنطق وراء ذلك هو: أن انتشار القدرات هو اتجاه لا رجعة فيه، وأن الطريق الأكثر واقعية هو أن يتمكن المدافعون من استخدام أقوى الأدوات قبل المهاجمين.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
155.77K درجة الشعبية
#
CryptoMarketSeesVolatility
222.53K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
31.65K درجة الشعبية
#
rsETHAttackUpdate
68.29K درجة الشعبية
#
US-IranTalksStall
176.02K درجة الشعبية

تثبيت

خريطة الموقع

فهم GPT-5.5 في مقال واحد: بدءًا من اليوم، OpenAI لن "تبيع" الرموز بعد الآن

84.9% من المهام تصل لمستوى محترف

أقوى نموذج برمجة مستقل

العمل المعرفي: الذكاء الاصطناعي يستخدم الكمبيوتر لأول مرة

البحث العلمي: مساعدة في اكتشاف إثباتات رياضية جديدة

كفاءة الاستنتاج: الذكاء الاصطناعي يساعد نفسه في تحسين بنيته التحتية

الأمن السيبراني: قدرات محسنة، وضوابط أكثر صرامة

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

تثبيت