#OpenAIGPT5.6


جي بي تي-5.6 هنا. لا يمكنك استخدامه.

قبل ثلاثة أيام، أطلقت OpenAI أقوى عائلة نماذج حتى الآن — ولم يتمكن أي أحد تقريبًا من لمسها.

في 26 يونيو، كشفت OpenAI عن جي بي تي-5.6: ثلاثة نماذج تُدعى سول، تيرا، ولونا. سول هو الرائد، تيرا هو المستوى المتوسط المتوازن، ولونا هو الخيار السريع والرخيص. على الورق، هذا بالضبط ما توقعه السوق بعد جي بي تي-5.5 — مخطط تسمية أكثر إحكامًا، سلم تسعير واضح، ووضع تفكير "ألترا" جديد على سول يقوم بتشغيل وكلاء فرعيين للمهام المعقدة. يخبرك التسعير بكل شيء عن كيفية رؤية OpenAI للمستويات: سول يبقى عند 5 دولارات/30 دولارًا لكل مليون رمز (نفس جي بي تي-5.5)، تيرا يخفض ذلك إلى النصف إلى 2.50 دولار/15 دولارًا، ولونا ينخفض إلى 1 دولار/6 دولارات. هذا ليس خصمًا على القدرات القديمة — OpenAI تقدم تيرا كذكاء من فئة جي بي تي-5.5 بنصف السعر، ولونا كلاعب حجم لكل شيء لا يحتاج إلى تفكير حدودي.

التسمية نفسها هي إشارة هادئة. ابتعدت OpenAI عن "ميني" و"نانو" لأن هذه النماذج داخليًا ليست أصغر حجمًا حقًا — إنها فقط مضبوطة لمهام مختلفة. 5.6 هو العائلة؛ سول، تيرا، ولونا هي مواقع ستستمر في التقدم بشكل مستقل. إنه نفس تقسيم المنتجات الذي تستخدمه أنثروبيك مع أوبوس، سونيت، وهايكو، لكن بأسماء سماوية بدلاً من موسيقية.

المؤشر الذي يهم — والذي لا يهم

اختارت OpenAI نشر مؤشر واحد: Terminal-Bench 2.1، الذي يختبر مهام البرمجة في العالم الحقيقي في بيئات الطرفية — التخطيط، التكرار، تنسيق الأدوات. سجل سول 91.9%. هذا يتفوق على نتيجة كلود ميثوس 5 البالغة 88.0%، وهو جديد من نوعه على ذلك المؤشر المحدد.

إليك المشكلة: Terminal-Bench 2.1 هو نتائج OpenAI المبلغ عنها ذاتيًا على المؤشر الذي اختارته. عندما قامت أنثروبيك بتشغيل نفس النماذج من خلال أداة mini-SWE-agent الخاصة بها، انخفض جي بي تي-5.5 من 88 إلى حوالي 81-83 — يتقلص التفوق أو ينعكس عندما يعمل كل نموذج على محكم واحد. لم تنشر OpenAI SWE-Bench Pro أو FrontierCode أو Humanity's Last Exam — جميع المؤشرات التي سجل فيها كلود فيبل 5 (الذي يشارك ميثوس 5 أوزانه) أرقامًا قياسية قبل أن يتم سحبه. لذا نعم، سول يتفوق على ميثوس في Terminal-Bench. ما إذا كان يتفوق على ميثوس على نطاق واسع هو ادعاء قدمته OpenAI بحذر، بلغة محدودة النطاق.

هناك تعقيد آخر. يصنف بطاقة النظام الخاصة بـ OpenAI جميع نماذج جي بي تي-5.6 الثلاثة — وليس فقط سول — كمخاطر "عالية" لكل من القدرة الإلكترونية والبيولوجية/الكيميائية. تم تصنيفها تحت ذلك الحد لتحسين الذات للذكاء الاصطناعي. كما أشارت OpenAI إلى أن سول "أفضل في مساعدة الأشخاص على إيجاد وإصلاح الثغرات من تنفيذ هجمات شاملة بشكل موثوق" — وهو تأكيد مصاغ بعناية لا يعني أنه لا يمكنه تنفيذ هجمات، فقط أنه أفضل في الجانب الدفاعي. وقامت OpenAI بمراجعة إطار استعدادها في أبريل، بإزالة بعض مجالات الدراسة السابقة. هذه التفاصيل لا تحصل على معالجة في العناوين الرئيسية، لكنها هي التي يقرأها صانعو السياسات.

القصة الحقيقية: واشنطن الآن في حلقة الإصدار

السبب في عدم قدرتك على استخدام جي بي تي-5.6 الآن ليس هندسيًا. إنه سياسي.

قبل أسبوعين من هذا الإطلاق، أصدرت إدارة ترامب توجيهًا للتحكم في الصادرات ضد أنثروبيك، مما أجبر الشركة على تعطيل كل الوصول إلى فيبل 5 وميثوس 5 عالميًا — ليس فقط للمواطنين الأجانب، بل للجميع، لأن عزل الوصول الأجنبي لم يكن ممكنًا تقنيًا. كان المحفز هو اختراق تم الإبلاغ عنه لـ فيبل 5 أظهر أنه يمكن استخراج قدرات على مستوى الأسلحة الإلكترونية. وفقًا لديفيد ساكس، مستشار الذكاء الاصطناعي السابق للإدارة، رفض الرئيس التنفيذي لـ أنثروبيك داريو أمودي إصلاح الاختراق أو سحب النموذج قبل صدور الأمر.

عندما ذهبت OpenAI لإطلاق جي بي تي-5.6، طلب مكتب المدير الوطني للأمن الإلكتروني ومكتب سياسة العلوم والتكنولوجيا في البيت الأبيض من OpenAI تقييد الطرح إلى حوالي 20 شريكًا معتمدًا من الحكومة قبل أي إصدار أوسع. تعتبر الإدارة جي بي تي-5.6 "مكافئًا" لقدرة فئة ميثوس. وافقت OpenAI — ولكن مع معارضة ملحوظة. أخبر سام ألتمان الموظفين أن هذا النهج "ليس نموذجنا طويل الأجل المفضل" وأن OpenAI ستعمل نحو "نهج أكثر استدامة للإصدارات المستقبلية." أطلقت مدونة الشركة على الطرح المقيد "غير مستدام."

إذن ما لدينا هو بوابة جديدة بحكم الأمر الواقع: النماذج الحدودية الآن تمر بعملية موافقة حكومية قبل الوصول العام. لا يوجد إطار رسمي بعد — الأمر التنفيذي الإلكتروني لا يزال قيد الصياغة. تعالج OpenAI المعاينة المحدودة كـ"خطوة قصيرة المدى" وتعد بتوفر أوسع "في الأسابيع القادمة"، حيث أخبر ألتمان المراسلين أن الحكومة أشارت إلى أن هذا الإطار الزمني مقبول على الأرجح. أنثروبيك، في meantime، حصلت على استثناء جزئي — يمكن الآن إعادة نشر ميثوس 5 للمنظمات الأمريكية التي تدير البنية التحتية الحرجة، على الرغم من أن فيبل 5 لا يزال معلقًا بالكامل.

لماذا هذا أهم من المؤشرات

إطلاق جي بي تي-5.6 ليس حقًا قصة تكنولوجية. إنها قصة حوكمة مغلفة في إعلان منتج.

ضع في اعتبارك الجدول الزمني: تطلق أنثروبيك فيبل 5 في 9 يونيو. في غضون أيام، يتم عرض اختراق. بحلول 13 يونيو، أمر مراقبة الصادرات يجبر على الإغلاق الكامل. تتبع أسبوعان من المفاوضات، مع موظفي أنثروبيك المتمركزين في واشنطن. بحلول 26 يونيو، تطلق OpenAI جي بي تي-5.6 في معاينة محدودة بالتنسيق مع نفس الإدارة. الرسالة لكل مختبر ذكاء اصطناعي واضحة: إذا وصل نموذجك إلى قدرة فئة ميثوس، ستكون الحكومة الأمريكية في عملية الإصدار الخاص بك، سواء أعجبك ذلك أم لا.

هذا هو التحول الذي لا يسميه أحد. انتقلنا من "المختبر يقرر متى وكيف يتم الإصدار" إلى "الحكومة تقرر من يحصل على الوصول أولاً." الإطار غير موجود بعد. العملية مخصصة. المعايير غير شفافة. تتعاون OpenAI لأنها ترى هذا كأسرع طريق إلى الإصدار الواسع النهائي. قاتلت أنثروبيك وخسرت. المختبر التالي — جوجل ديب مايند، أيًا كان — سيواجه نفس البوابة.

بالنسبة للمطورين والمؤسسات، التأثير العملي فوري. ChatGPT الخاص بك لا يزال على جي بي تي-5.5. واجهة برمجة التطبيقات الخاصة بك لا تحتوي على نقاط نهاية جي بي تي-5.6. الشركاء المعتمدون البالغ عددهم ~20 هم منظمات كبيرة تم فحصها من قبل الحكومة. إذا كنت تبني منتجات تعتمد على الوصول إلى النماذج الحدودية، فإن خارطة طريقك الآن تحتوي على متغير لا يمكنك التحكم فيه: الجدول الزمني لموافقة واشنطن.

التسعير عدواني — وهذا استراتيجي

تيرا بنصف سعر الرائد لقدرة من فئة جي بي تي-5.5 ليست مجرد صفقة جيدة. إنها خطوة خندق. تقوم OpenAI بتسعير تيرا ولونا لجعل كل نموذج آخر من المستوى المتوسط والميزانية غير اقتصادي. إذا قدمت تيرا جودة جي بي تي-5.5 بسعر 2.50 دولار/15 دولارًا، فإن ضغط الهامش على نماذج سونيت من أنثروبيك والنماذج المتوسطة من جوجل حقيقي. لونا بسعر 1 دولار/6 دولارات يستهدف بشكل مباشر عمليات النشر ذات الحجم الكبير — مراكز الاتصال، خطوط أنابيب المحتوى، مهام التصنيف — حيث تكون التكلفة لكل رمز أكثر أهمية من الذكاء الأقصى.

هذا التسعير يعمل فقط على نطاق OpenAI، ويعمل فقط إذا وصل الوصول الواسع قريبًا. النموذج الذي يمكن لـ20 شركة استخدامه ليس سلاح تسعير. إنه عرض توضيحي. يعتمد التأثير التنافسي الحقيقي على ما إذا كان جي بي تي-5.6 سيصل إلى التوفر العام في غضون أسابيع، كما وعد، أو إذا كانت البوابة الحكومية ستستمر لفترة أطول.

ما أراقبه بعد ذلك

ما إذا كان وعد "الأسابيع القادمة" سيبقى. منتصف يوليو هو الهدف المتناقل للوصول الأوسع إلى ChatGPT وواجهة برمجة التطبيقات. أي تأخير يعيد تشكيل النافذة التنافسية.

تحرك أنثروبيك التالي. ميثوس 5 لديه استثناء جزئي لمنظمات البنية التحتية الحرجة. فيبل 5 لا يزال معطلاً. خطط الاكتتاب العام لـ أنثروبيك يُقال إنها على المسار الصحيح لاحقًا هذا العام — لكن لا يمكنك طرح نموذجك الرائد للجمهور تحت مراقبة الصادرات.

إطار الأمر التنفيذي. الآن، العملية هي حالة بحالة دون معايير منشورة. بمجرد وجود قواعد رسمية، ستحدد بوابة الإصدار لكل مختبر، وليس فقط OpenAI وأنثروبيك.

التحقق المتبادل من المؤشرات. نتيجة سول 91.9% على Terminal-Bench مثيرة للإعجاب. التقييم المستقل على أداة أنثروبيك وعبر مجموعات المؤشرات الأوسع سيحدد ما إذا كانت هذه قفزة حقيقية في القدرات أم ادعاء محدود النطاق.

جي بي تي-5.6 هو أقوى نموذج بنته OpenAI على الإطلاق. هذا غير محل خلاف. لكن قصة هذا الإطلاق ليست النموذج — إنها البوابة. لأول مرة، لم يذهب إطلاق ذكاء اصطناعي حدودي مباشرة إلى المستخدمين. ذهب إلى واشنطن أولاً، وواشنطن قررت من يدخل. كيف ستتطور هذه البوابة ستشكل العقد القادم من نشر الذكاء الاصطناعي أكثر من أي نتيجة مؤشر.
شاهد النسخة الأصلية
post-image
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت