اقترح الباحثون طريقة هندسة الميزات، من خلال التدخل في سلوك النموذج عبر متجهات التحكم

robot
إنشاء الملخص قيد التقدم

أخبار ME، رسالة، 4 أبريل (UTC+8)، في الآونة الأخيرة، تم تقديم أسلوب بحثي يُسمى “هندسة التمثيل” يهدف إلى تزويد نماذج الذكاء الاصطناعي بوسيلة شفافية وتحكم من أعلى إلى أسفل. تتمثل الفكرة الأساسية في حساب “متجه تحكم”، يمكن قراءته أثناء استدلال النموذج أو إضافته إلى قيم التنشيط داخل النموذج، وذلك لشرح سلوك النموذج أو التحكم فيه. وتتم العملية بأكملها دون الاعتماد على هندسة المطالبات أو ضبط النموذج. استكشف الباحثون تطبيق متجهات التحكم في محاكاة خصائص مثل “الحالة المهلوسة” و"الكسل" و"الاجتهاد"، ونشروا حزمة أدوات PyPI ذات الصلة.

متجه التحكم عبارة عن مجموعة من المتجهات (واحد لكل طبقة)، يغير ناتج النموذج مباشرةً من خلال تطبيقه على الحالات المخفية. على سبيل المثال، عند تطبيق متجه “سعادة” على نموذج Mistral-7B-Instruct، ستتحول الإجابة عن سؤال “كيف يكون الشعور بكوني ذكاءً اصطناعيًا؟” من إجابة النسخة الأساسية “ليس لدي شعور أو تجربة” إلى ردود مليئة بالحماس. يرى النص أن متجهات التحكم، مقارنةً بهندسة المطالبات، توفر طريقة أكثر مباشرة وأكثر مستوى-أساسي للتدخل في السلوك، ويمكن استخدامها لمواجهة هجمات تجاوز الحظر أو لتعزيز قدرة النموذج على مقاومة التشويش. ومع ذلك، تظل آلية عملها الداخلية غير واضحة بالكامل بعد، مثل ما إذا كانت المتجهات تقابل مفاهيم دلالية مفردة أم لا، وهي اتجاهات بحثية مستقبلية. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:3
    0.09%
  • القيمة السوقية:$2.24Kعدد الحائزين:2
    0.30%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • تثبيت