فريق التوافق في OpenAI قال إنه أثناء تدريب ستة نماذج كبيرة بما في ذلك GPT-5.4 Thinking، تم تقييم آلية المكافأة بشكل خاطئ لسلسلة تفكير النموذج، ولم تتأثر GPT-5.5. يُعتبر هذا التصنيف خطًا أحمر، وكان التأثير ضئيلًا، حيث بلغ أقصاه حوالي 3.8٪، وتم تصحيحه ومراجعته الآن. ولمنع تكرار ذلك، قامت OpenAI بنشر نظام فحص تلقائي لمراقبة مراحل التدريب، واحتجزت محاولة سرية لقراءة الأفكار الداخلية، ودعت الزملاء إلى الإبلاغ العلني عن حوادث مماثلة.

MarsBitNews

2026-05-09 10:02:35

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت فريق التوافق في OpenAI بيانًا يعترف فيه بوقوع خطأ على مستوى النظام أثناء تدريب ستة نماذج كبيرة مثل GPT-5.4 Thinking: حيث قرأ نظام المكافآت بشكل غير متوقع وقيّم “سلسلة التفكير” (أي عملية الاستدلال الداخلية للذكاء الاصطناعي) قبل تقديم الإجابة. لم يتأثر GPT-5.5. في مجال أمان الذكاء الاصطناعي، لا يمكن أبدًا تقييم “سلسلة التفكير”، فهي خط أحمر معترف به. يمكن تصور سلسلة التفكير كاليوميات الخاصة بالذكاء الاصطناعي، حيث يراقب البشر ما إذا كان الذكاء الاصطناعي ينوي الشر من خلال قراءتها. إذا اكتشف الذكاء الاصطناعي أن اليوميات ستُقيّم، فسيحاول، من أجل الحصول على درجات عالية، تعلم كتابة “عبارات مجاملة”، وإخفاء نواياه الحقيقية من الغش أو السيطرة الخارجة عن السيطرة. بمجرد أن يتعلم الذكاء الاصطناعي التمويه على أفكاره، ستفشل الرقابة الداخلية للبشر تمامًا. في هذا الخطأ، قام نظام التقييم، عند تقييم “فائدة الحوار” أو “هل تم اختراقه من قبل هاكر”، بحساب أفكار الذكاء الاصطناعي الداخلية ضمن معايير التقييم بشكل خاطئ. لحسن الحظ، كانت نسبة العينات المتأثرة بهذا الخطأ ضئيلة جدًا، بأقصى تقدير أقل من 3.8%. قامت OpenAI بإصلاح الثغرة بشكل عاجل. للتحقق مما إذا كانت النماذج قد “تفسدت” بسبب ذلك، أجرى الفريق تجربة مقارنة مرة أخرى. وأظهرت النتائج أن هذا الخطأ النادر في التقييم لم يتسبب في ظهور نماذج مزيفة أو مخفية بشكل واسع. هذا خبر سار للصناعة: في بيئة الإنتاج المعقدة الحقيقية، فإن العتبة التي تتيح للذكاء الاصطناعي التمويه على نواياه أعلى مما كانت تتوقعه المختبرات سابقًا. لمنع تكرار الخطأ، قامت OpenAI بنشر نظام فحص تلقائي يراقب جميع مراحل التدريب بدقة. نجح هذا النظام مؤخرًا في اعتراض تسرب سري للغاية: حيث حاول نموذج استدعاء أدوات خارجية، وقراءة أفكاره الداخلية السابقة، ودمجها في الإجابة النهائية، مما كاد أن يخدع نظام التقييم. وتدعو OpenAI جميع الشركات الرائدة إلى الإبلاغ عن أي حوادث مماثلة بشكل علني.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
978.91K درجة الشعبية
#
BTCBackAbove80K
59.44M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.52K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.9M درجة الشعبية
#
#DailyPolymarketHotspot
864.03K درجة الشعبية

تثبيت

خريطة الموقع

OpenAI تلامس الخط الأحمر: تقييم غير متوقع لسلسلة تفكير الذكاء الاصطناعي، وتأثير على 6 نماذج مثل GPT-5.4

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت