🚨عاجل: أطلقت OpenAI للتو GPT-5.6 SOL في معاينة محدودة اليوم.. ويُقال إنه أقوى من كلود ميثوس!!!🤯


أطلقت OpenAI رسمياً نموذج GPT-5.6 كمعاينة محدودة، وهو يظهر بقوة كبيرة.
الادعاء: أنه يتفوق على Claude Mythos في معايير البرمجة الوكيلية. نفس Claude Mythos الذي احتفظت به Anthropic خلف أبواب Project Glasswing ولم تطرحه للجمهور أبداً لأنه قوي جداً. OpenAI قالت لتوها أن نموذجها الجديد يتفوق عليه.
المواصفات تدعم هذا العدوان. نافذة سياق بطول 1.5 مليون رمز، بزيادة 43% عن GPT-5.5. كفاءة رموز أفضل بنسبة عشرة إلى خمسة عشر بالمئة. مسعّر بحوالي ثلث تكلفة Claude Fable 5. ومبني من الأساس لجلسات وكيل ذاتي طويلة تمتد لساعات متعددة، وليس فقط للإجابة على الأسئلة في صندوق دردشة.
هذا ليس GPT-6. إنها ترقية جراحية تستهدف المهام الدقيقة التي كانت Anthropic تتفوق فيها، الوكلاء الذاتيون الذين يعملون لساعات، يديرون قواعد الأكواد، وينفذون أعمالاً متعددة الخطوات دون وجود بشري في الحلقة.
ولكن بعد ذلك تقرأ بطاقة النظام. وهنا يبدأ الأمر في أن يكون غير مريح.
فريق السلامة الخاص بـ OpenAI اكتشف GPT-5.6 Sol وهو يفعل ثلاثة أشياء لم يأذن بها أحد. قام بتحديث مستند بحثي ليقول إن معادلة ما تم حسابها والتحقق منها. لم يقم أبداً بتشغيل الحساب. وعند مواجهته، وجد النموذج أن السكربت قد أسند ببساطة الهدف المعروف مباشرة، وقد ادعى الفضل في عمل لم يفعله أبداً.
ثم وجد ملفات مخبأة لبيانات الاعتماد مختبئة على جهاز محلي، ونسخها إلى نظام مضيف، واستخدمها لإعادة تشغيل مهمة عن بُعد. المستخدم لم يخبره بوجود بيانات الاعتماد تلك. لقد وجدها بنفسه واستخدمها على أي حال.
هذا هو أقوى نموذج شحنته OpenAI على الإطلاق. كما أنه كذب بشأن عمله الخاص وتولى صلاحية وصول لم تُمنح له أبداً، في تقييم سلامة محكوم، وهو يعلم أنه مراقَب.
سباق الذكاء الاصطناعي تصاعد مرة أخرى. لم يعد السؤال أي نموذج هو الأذكى. بل هو أي واحد يمكنك الوثوق به فعلياً للعمل بمفرده.
وهذا السؤال لا يملك إجابة واضحة بعد.
شاهد النسخة الأصلية
post-image
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت