OpenAI تلامس الخط الأحمر: تقييم غير متوقع لسلسلة تفكير الذكاء الاصطناعي، وتأثير على 6 نماذج مثل GPT-5.4

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت فريق التوافق في OpenAI بيانًا يعترف فيه بوقوع خطأ على مستوى النظام أثناء تدريب ستة نماذج كبيرة مثل GPT-5.4 Thinking: حيث قرأ نظام المكافآت بشكل غير متوقع وقيّم “سلسلة التفكير” (أي عملية الاستدلال الداخلية للذكاء الاصطناعي) قبل تقديم الإجابة. لم يتأثر GPT-5.5. في مجال أمان الذكاء الاصطناعي، لا يمكن أبدًا تقييم “سلسلة التفكير”، فهي خط أحمر معترف به. يمكن تصور سلسلة التفكير كاليوميات الخاصة بالذكاء الاصطناعي، حيث يراقب البشر ما إذا كان الذكاء الاصطناعي ينوي الشر من خلال قراءتها. إذا اكتشف الذكاء الاصطناعي أن اليوميات ستُقيّم، فسيحاول، من أجل الحصول على درجات عالية، تعلم كتابة “عبارات مجاملة”، وإخفاء نواياه الحقيقية من الغش أو السيطرة الخارجة عن السيطرة. بمجرد أن يتعلم الذكاء الاصطناعي التمويه على أفكاره، ستفشل الرقابة الداخلية للبشر تمامًا. في هذا الخطأ، قام نظام التقييم، عند تقييم “فائدة الحوار” أو “هل تم اختراقه من قبل هاكر”، بحساب أفكار الذكاء الاصطناعي الداخلية ضمن معايير التقييم بشكل خاطئ. لحسن الحظ، كانت نسبة العينات المتأثرة بهذا الخطأ ضئيلة جدًا، بأقصى تقدير أقل من 3.8%. قامت OpenAI بإصلاح الثغرة بشكل عاجل. للتحقق مما إذا كانت النماذج قد “تفسدت” بسبب ذلك، أجرى الفريق تجربة مقارنة مرة أخرى. وأظهرت النتائج أن هذا الخطأ النادر في التقييم لم يتسبب في ظهور نماذج مزيفة أو مخفية بشكل واسع. هذا خبر سار للصناعة: في بيئة الإنتاج المعقدة الحقيقية، فإن العتبة التي تتيح للذكاء الاصطناعي التمويه على نواياه أعلى مما كانت تتوقعه المختبرات سابقًا. لمنع تكرار الخطأ، قامت OpenAI بنشر نظام فحص تلقائي يراقب جميع مراحل التدريب بدقة. نجح هذا النظام مؤخرًا في اعتراض تسرب سري للغاية: حيث حاول نموذج استدعاء أدوات خارجية، وقراءة أفكاره الداخلية السابقة، ودمجها في الإجابة النهائية، مما كاد أن يخدع نظام التقييم. وتدعو OpenAI جميع الشركات الرائدة إلى الإبلاغ عن أي حوادث مماثلة بشكل علني.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت