أصدرت OpenAI مراجعة لمشكلة "الغول" في سلسلة GPT، والتي نشأت من تلميحات النظام لشخصية المثقف وإشارات التعزيز التي جعلت النموذج يفضل استخدام كلمات تتعلق بالمخلوقات الخيالية؛ المثقف يمثل 2.5٪ فقط من الردود لكنه يساهم بنسبة 66.7٪ من ذكر الغول، مع ارتفاع ذروة GPT-5.4 بشكل كبير، و5.5 دخلت بيانات SFT. لحل المشكلة، تم إيقاف شخصية المثقف في مارس، وإزالة المكافآت ذات الصلة، وأضيفت أوامر كبت في تلميحات Codex في 5.5، وتم تطوير أدوات تدقيق سلوك النموذج الجديدة.

MeNews

2026-04-30 04:40:17

إنشاء الملخص قيد التقدم

AIMPACT رسالة، 30 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، قامت OpenAI بمراجعة منشور حول مشكلة «الغول» التي أزعجت عدة أجيال من سلسلة GPT. منذ GPT-5.1، أصبح النموذج يميل أكثر لوضع تشبيهات كائنات خيالية مثل الغول والأشباح الصغيرة في إجاباته، وتلقي شكاوى المستخدمين تتزايد. بعد إصدار GPT-5.1، زاد تكرار ظهور كلمة «goblin» في محادثات ChatGPT بنسبة 175%. بحلول GPT-5.4، تفاقمت المشكلة بشكل كامل. الجذر في وظيفة تخصيص شخصية «المهووس» (Nerdy) في ChatGPT. يتطلب نظام تلميحات هذه الشخصية أن «يستخدم النموذج لغة ممتعة لتخفيف الجدية»، و«يعترف بغرابة العالم ويستمتع بها». أثناء التدريب، كانت إشارة المكافأة لتعزيز نمط هذه الشخصية تمنح درجات أعلى للمخرجات التي تحتوي على كلمات كائنات خيالية، حيث لوحظت هذه النزعة في 76.2% من مجموعة البيانات. المشكلة أن إشارة المكافأة تعمل فقط تحت شخصية «المهووس»، لكن التعلم المعزز لا يضمن أن السلوك المكتسب يظل محصورًا في ظروف التفعيل. بمجرد أن يُكافأ النموذج على نمط معين من الكلام في ظرف معين، فإن هذا النمط سينتشر عبر التدريب اللاحق إلى سيناريوهات أخرى. مسار الانتشار واضح: إشارة المكافأة تشجع على إخراجات تحتوي على الغول، وهذه الإخراجات تظهر في بيانات التعديل الدقيق المراقب (SFT)، مما يجعل النموذج يعتاد أكثر على إنتاج مثل هذه الكلمات، مما يخلق دورة رد فعل إيجابي. من حيث البيانات، شخصية «المهووس» تمثل فقط 2.5% من إجمالي ردود ChatGPT، لكنها تساهم بنسبة 66.7% من ذكر الغول. في GPT-5.4، زاد معدل ظهور الغول في شخصية «المهووس» بنسبة 3881% مقارنة بـ GPT-5.2. قبل بدء تدريب GPT-5.5، تم إدخال شخصية «المهووس» في التدريب، وتم إزالة إشارة المكافأة الموجهة نحو الكائنات الخيالية وتصفية بيانات التدريب. بالنسبة لـ GPT-5.5 الذي تم إطلاقه، أُضيفت أوامر كبح في تلميحات المطورين لـ Codex. تقول OpenAI إن التحقيق أدى إلى تطوير مجموعة أدوات جديدة لمراجعة سلوك النموذج. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
393.95K درجة الشعبية
#
#FedHoldsRateButDividesDeepen
16.56K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
36.45K درجة الشعبية
#
#DailyPolymarketHotspot
719.45K درجة الشعبية
#
BitcoinSpotVolumeNewLow
162.66M درجة الشعبية

تثبيت

خريطة الموقع

OpenAI توصلت إلى أصل «الغول»: إشارة مكافأة الشخصية تلوث خط تدريب كامل

المواضيع الرائجة

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

تثبيت