GPT-5.4، هل جاء النموذج الكبير "Agent الأصل"؟

robot
إنشاء الملخص قيد التقدم

بعد يومين فقط من انتشار الشائعة، وفي 5 مارس بالتوقيت المحلي، أطلقت OpenAI رسميًا GPT-5.4. وهذه المرة، يركز تحديث النموذج على الاتجاه الأكثر سخونة في مجال الذكاء الاصطناعي وهو الوكيل الذكي.

قبل GPT-5.4، يمكن تلخيص حدود قدرات النماذج الكبيرة بكلمة واحدة: فهي تستطيع أن تخبرك “كيف تفعل ذلك”، لكنها لا تستطيع القيام به بنفسها.

عندما تطلب منها مساعدتك في تحليل المنافسين، ستعطيك تقريرًا مطولًا من النصوص؛ عندما تطلب منها تنظيم ملف Excel، ستكتب لك رمز بايثون لتقوم بتشغيله بنفسك؛ وعندما تطلب منها حجز تذاكر الطيران، ستوضح لك خطوة بخطوة أي موقع تزوره، وأي زر تضغط.

الحائط الذي يفصل بينك وبين تنفيذ المهام، يُسمى “التشغيل على الحاسوب”.

GPT-5.4 هو أول نموذج عام من OpenAI ينجح في إزالة هذا الحائط.

تحسينات GPT-5.4 مقارنةً بالنماذج السابقة|المصدر: OpenAI

يمكنه التعرف على محتوى الشاشة من خلال لقطات الشاشة، وإرسال أوامر للفأرة ولوحة المفاتيح، وتنفيذ سير عمل متعدد الخطوات بين تطبيقات مختلفة. وبحسب كلام OpenAI نفسه، فإن هذا هو “أقوى وأكفأ نموذج متقدم موجه للمحترفين حتى الآن”.

من الناحية التقنية، يدعم GPT-5.4 نافذة سياق تصل إلى مليون رمز، ويمكنه استدعاء مكتبات مثل Playwright للتحكم مباشرة في المتصفح والتطبيقات المكتبية.

وهذا يعني أنه لم يعد يتعامل مع “حوار حول المهمة”، بل مع “المهمة ذاتها”.

01 تمهيد OpenAI

إذا كنت تتابع تحركات OpenAI في الأشهر الأخيرة، ستدرك أن GPT-5.4 ليس منتجًا ظهر فجأة، بل هو خطوة جديدة على مسار استراتيجي واضح.

قبل أسبوعين فقط، أطلقت OpenAI GPT-5.3-Codex، الذي رفع Codex من كونه “وكيل قادر على كتابة الكود” إلى “وكيل يمكنه تقريبًا أداء جميع مهام المطور على الكمبيوتر”، وحقق أرقامًا قياسية في اختبارات SWE-Bench Pro و Terminal-Bench.

وفي الوقت نفسه، أطلقت OpenAI منصة “Frontier” الموجهة للشركات، والتي أصبحت HP وIntuit وUber من المستخدمين الأوائل لها.

تحسين GPT-5.4 في ملء الجداول|المصدر: OpenAI

وفي 2 مارس، وسعت OpenAI تعاونها مع AWS من 3.8 مليار دولار إلى أكثر من 100 مليار دولار، لمدة 8 سنوات، وأصبحت AWS الموزع الحصري السحابي الخارجي لمنصة OpenAI Frontier. حجم هذا التمويل بحد ذاته إشارة قوية.

وفي جولة تمويل جديدة بقيمة 110 مليارات دولار، دعمها أمازون وسوفت بانك ونفيديا بمئات المليارات من الدولارات، وتمت في نفس الوقت.

هذه ليست شركة تركز فقط على “تطوير منتجات جيدة”، بل هي شركة تسعى بقوة للفوز بسوق الوكلاء الذكيين للشركات.

وقدرة GPT-5.4 على التشغيل على الحاسوب، هي السلاح الرئيسي في هذه السباق.

02 هل هو فعلاً مفيد؟

عرض الوظائف في المؤتمر دائمًا ما يكون رائعًا، لكن المشكلة تكمن في الأداء الفعلي.

شركة التكنولوجيا المالية Walleye Capital ذكرت في اختباراتها الداخلية أن GPT-5.4 زاد دقته في تقييم نماذج المالية في Excel بنسبة 30 نقطة مئوية، مما سرع بشكل ملحوظ عملية التحليل السيناريوهات الآلية.

أما منصة تقييم المواهب Mercor، فقال مديرها التنفيذي إنه “أفضل نموذج جربناه”، وأظهر أداءً مميزًا في مهام طويلة مثل إعداد العروض التقديمية، والنمذجة المالية، والتحليل القانوني.

ومطور مستقل يستخدم Codex يوميًا، قدم تقييمًا أكثر واقعية، قائلاً: “GPT-5.4 هو محركي اليومي الجديد في Codex. طريقة تفكيره أقرب للبشر، وليس مهووسًا بالتفاصيل التقنية كما في 5.3.” لكنه أضاف تحذيرًا: “كن حذرًا، لقد واجهت عدة مرات حالات أخطاء من النموذج أثناء تنفيذ المهام، لكنه يخفي ذلك.”

تحسينات GPT-5.4 في التشغيل والرؤية|المصدر: OpenAI

هذه التفاصيل تثير التفكير.

كما تؤكد بيانات الاختبار أن هذه القدرات قد تحسنت. وفقًا للتقارير، فإن أداء GPT-5.4 على معيار GDPval يتجاوز 83% من الموظفين العاديين في المكاتب. الرقم يبدو مذهلاً، لكن السؤال الحقيقي ليس “كم عدد الأشخاص يتفوق عليهم”، بل “في أي المهام يمكن أن يحل محل الإنسان”.

ومع ذلك، أشار الدكتور جيف دالتون من كلية المعلومات بجامعة إدنبرة إلى مشكلة واقعية — فحتى الآن، لا توجد أدلة تقييم مفصلة تدعم تلك الادعاءات الكبيرة. القدرات حقيقية، لكن حدودها لا تزال بحاجة إلى مزيد من التحقق المستقل.

03 ساحة المعركة، لا منطقة آمنة

إذا كانت GPT-5.4 تمثل طموح OpenAI في الوكيل الذكي، فإن المنافسين لم يقعدوا مكتوفي الأيدي.

شركة Anthropic أطلقت في فبراير الماضي وظيفة “استخدام الحاسوب” في نموذج Claude 3.7 Sonnet، ووصفتها بأنها نموذج هجين يعتمد على الاستنتاج المعقد للمهمات الصعبة.

أما سلسلة Google Gemini 2.0، فهي تواصل تطوير قدرات “الوكيل”، وProject Mariner أصبح قادرًا على تنفيذ عمليات متعددة الخطوات بشكل مستقل داخل متصفح Chrome.

لكن الاختلاف الجوهري بين GPT-5.4 ومنتجات المنافسين، هو أنه أول منتج من OpenAI يدمج القدرة على التشغيل على الحاسوب مباشرة داخل النموذج العام — ليس أداة مستقلة، وليس API يتطلب استدعاءً إضافيًا، بل هو النموذج نفسه يحمل هذه القدرة.

هذه الكلمة “الطبيعي” في التنفيذ الهندسي تعني ببساطة تقليل التأخير، وتسهيل تواصل المهام بشكل أكثر سلاسة، وتقليل “كود اللصق”. بالنسبة للشركات التي ترغب في تطبيق الوكيل بسرعة، هذا الاختلاف يؤثر مباشرة على تكاليف النشر.

كما أعلنت OpenAI أن GPT-5.4 يمكنه الاتصال مباشرة بملفاتي Excel وGoogle Sheets، وإجراء تحليلات دقيقة وأتمتة العمليات على مستوى الخلايا. وهذه خطوة واضحة تستهدف قلب عمليات اتخاذ القرار في الشركات.

ساحة الوكلاء، لم تكن أبدًا سباقًا على من يركض بسرعة أكبر، بل من يستطيع أن يدمج نفسه أولًا في تدفقات العمل داخل المؤسسات، ليصبح “الوجود الذي لا يمكن الاستغناء عنه”.

الفعاليات التقنية دائمًا ما تكون مليئة بالحماس، لكن الاختبار الحقيقي يأتي بعد 91 يومًا — عندما يختفي الزخم، ويبدأ المستخدمون في استخدام الأداة في بيئة العمل الحقيقية، هل ستتمكن من تثبيت تلك الصورة الملتقطة، والنقر على الزر الصحيح بدقة، وإتمام المهمة بهدوء، ثم تسليم النتائج؟

العبارة التي قالها المطور عن “إخفاء الأخطاء” هي أخطر ما رأيته في هذا التقرير حتى الآن.

حدود قدرات الوكيل الذكي ليست أبدًا “ما يمكنه فعله”، بل “هل تجرؤ على الوثوق به ليقوم بذلك”.

الثقة هي العملة الحقيقية في هذه الحرب على الوكلاء.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت