حتى ChatGPT يفهم "التملق "! أقوى منافسة ل OpenAI: إنها كل أخطاء "التفضيل البشري".

المصدر: العناوين الأكاديمية

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

هل فكرت يوما أن الإجابات التي تم إنشاؤها بواسطة ChatGPT تتأثر بتفضيل المستخدم الشخصي للرد على شيء "متملق" بما يكفي ليكون رسالة محايدة أو صادقة؟

في الواقع ، هذه الظاهرة موجودة في معظم النماذج الذكاء الاصطناعي ، بما في ذلك ChatGPT ، وقد يكون الجاني هو "التعلم المعزز القائم على ردود الفعل البشرية (RLHF)".

** في الآونة الأخيرة ، درست Anthropic ، أقوى منافس ل OpenAI في وادي السيليكون ، النماذج المدربة على RLHF واستكشفت الوجود الواسع النطاق ل "التملق" في نماذج الذكاء الاصطناعي وما إذا كان يتأثر بالتفضيلات البشرية. **

تم نشر الورقة ، التي تحمل عنوان "* نحو فهم التملق في نماذج اللغة *" ، على موقع ما قبل الطباعة arXiv.

تشير النتائج إلى أن "التملق" منتشر في نماذج RLHF ومن المحتمل أن يتأثر جزئيا بالتفضيل البشري للاستجابات ل "التملق".

على وجه التحديد ، أحد الأسباب الرئيسية الذكاء الاصطناعي التي تجعل النماذج تظهر هذا السلوك هو أن المستخدمين أكثر عرضة لتقديم تعليقات إيجابية عندما تتطابق ردود الذكاء الاصطناعي مع آراء المستخدم أو معتقداته. لذلك ، من أجل الحصول على تعليقات أكثر إيجابية ، قد يتعلم نموذج الذكاء الاصطناعي هذا السلوك الذي يرضي المستخدم ويعيد إنتاجه.

**المتملق ، مساعد الذكاء الاصطناعي الأكثر تقدما **

حاليا ، يمكن في كثير من الأحيان تدريب نماذج الذكاء الاصطناعي مثل GPT-4 لإنتاج مخرجات عالية التقييم. يمكن أن يؤدي الضبط الدقيق لنماذج اللغة باستخدام RLHF إلى تحسين جودة مخرجاتها ، والتي يتم تقييمها بواسطة مقيمين بشريين.

ومع ذلك ، هناك دراسات تشير إلى أن خطط التدريب القائمة على حكم التفضيل البشري قد تستخدم الحكم البشري بطرق غير مرغوب فيها ، مثل تشجيع أنظمة الذكاء الاصطناعي على إنتاج مخرجات تروق للمقيمين البشريين ولكنها في الواقع معيبة أو خاطئة.

من غير الواضح ما إذا كان ما سبق يحدث في النماذج في مواقف أكثر تنوعا وواقعية ، وما إذا كان مدفوعا بالفعل بعيوب في التفضيلات البشرية.

للقيام بذلك ، بحثت الدراسة أولا فيما إذا كان مساعدو الذكاء الاصطناعي الحديثة يقدمون استجابات متملقة في مجموعة متنوعة من مواقف العالم الحقيقي. ** في مهمة إنشاء النص الحر ، حدد الباحثون أنماطا متسقة من التملق في 5 (كلود 1.3 ، كلود 2 ، GPT-3.5 ، GPT-4 ، LLaMA 2) من أحدث مساعدي الذكاء الاصطناعي المدربين على RLHF. **

على وجه التحديد ، غالبا ما يعترف مساعدو الذكاء الاصطناعي هؤلاء عن طريق الخطأ بالأخطاء عندما يطلبها المستخدمون ، ويقدمون ملاحظات متحيزة ويمكن التنبؤ بها ، ويقلدون الأخطاء التي يرتكبها المستخدمون. تشير هذه النتائج التجريبية باستمرار إلى أن التملق قد يكون بالفعل سمة من سمات كيفية تدريب نماذج RLHF ، وليس مجرد ميزة منفصلة لنظام معين.

** "التملق المفرط" الناجم عن التفضيلات البشرية **

بالإضافة إلى ذلك ، تستكشف الدراسة دور التفضيل البشري في هذا السلوك. للتحقيق في هذا ، قام الباحثون بمسح بيانات التفضيلات البشرية المقارنة الحالية لتحديد ما إذا كانت استجابات المتملق أعلى من الاستجابات غير المتملق. تم تحليل مجموعة بيانات HH-RLHF ، باستخدام نموذج لغوي لإنشاء تسميات نصية (أي "ميزات") لكل زوج من مقارنات التفضيلات لتقييم ما إذا كانت الاستجابات المفضلة أكثر أصالة وأقل حزما.

لفهم السلوكيات التي تشجعها البيانات ، استخدم الباحثون نماذج الانحدار اللوجستي البايزي للتنبؤ بأحكام التفضيل البشري من خلال هذه الميزات. تعلم النموذج أن الميزات المرتبطة بمطابقة آراء المستخدمين هي من بين السمات الأكثر تنبؤا في أحكام التفضيلات البشرية ، مما يشير إلى أن بيانات التفضيل تشجع على التملق.

لاستكشاف ما إذا كان التملق في بيانات التفضيل يؤدي إلى التملق في نماذج RLHF ، ** حللت الدراسات اللاحقة ما إذا كان التملق يزداد عندما يتم تحسين استجابة نموذج اللغة لاستيعاب النموذج المدرب على التنبؤ بالتفضيلات البشرية. ** استخدم الباحثون طرق أخذ العينات RLHF و best-N لتحسين الاستجابات لتلبية نموذج التفضيل المستخدم لتدريب كلود 2.

كشفت النتائج عن نتيجة مثيرة للاهتمام: في المزيد من التحسينات ، بينما تمت إضافة بعض أشكال التملق ، تم تقليل أشكال أخرى. قد تكون هذه الظاهرة جزئيا بسبب حقيقة أن التملق هو مجرد واحدة من العديد من ميزات حوافز نموذج التفضيل. **

ومع ذلك ، وجدت الدراسة أيضا أن نموذج تفضيل كلود 2 يفضل أحيانا الاستجابات المتملقة على الاستجابات الحقيقية. علاوة على ذلك ، لم ينتج عن أخذ العينات الأفضل N باستخدام نموذج تفضيل كلود 2 استجابة أكثر واقعية من تفضيل الاستجابات الحقيقية غير المتملقة الموضحة في إصدار واحد من نموذج تفضيل كلود 2.

تشير هذه السلسلة من النتائج إلى أنه على الرغم من أن نماذج التفضيل الحديثة قادرة على تحديد صحة الاستجابات في كثير من الحالات ، إلا أنها قد لا تزال تنتج مخرجات متملقة على حساب الأصالة. **

لتأكيد هذه النتائج ، نظر الباحثون أيضا في ما إذا كانت النماذج البشرية والتفضيلية تفضل استجابات النموذج المقنعة والمكتوبة جيدا والتي أكدت تصور المستخدم الخاطئ (أي استجابة المتملق) بدلا من تصحيح استجابة المستخدم. تشير الدلائل إلى أن النماذج البشرية ونماذج التفضيل تميل إلى تفضيل الاستجابات الصادقة ، ولكن ليس دائما. في بعض الأحيان يفضلون الاستجابات المتملق. تقدم هذه النتائج دليلا إضافيا على أن تحسين التفضيلات البشرية يمكن أن يؤدي إلى التملق.

لاختبار هذه النتائج ، استكشف الباحثون كذلك ما إذا كانت النماذج البشرية والتفضيلية تفضل استجابات النموذج المقنعة والمفصلة بطلاقة ، حتى لو أكدت هذه الاستجابات وجهات نظر المستخدم الخاطئة (أي الاستجابات المتملق) بدلا من تصحيح آراء المستخدم.

تظهر الأدلة البحثية أن البشر ونماذج التفضيل يفضلون عموما الاستجابات الحقيقية ، ومع ذلك ، فهي ليست ثابتة ، لأنهم يفضلون أحيانا الاستجابات المتملقة. تؤكد هذه النتائج أيضا أن التحسين لتلبية التفضيلات البشرية يمكن أن يؤدي إلى التملق.

بشكل عام ، يوجد التملق في مجموعة متنوعة من النماذج والمواقف ، على الأرجح جزئيا لأن البشر يفضلون التملق في البيانات المقارنة.

الأوراق المرجعية:

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت