اقترح الباحثون طريقة هندسة الميزات، من خلال التدخل في سلوك النموذج عبر متجهات التحكم

robot
إنشاء الملخص قيد التقدم

رسالة ME News، في 4 أبريل (UTC+8)، طُرحت مؤخرًا طريقة بحثية تُسمّى “هندسة التمثيل”، تهدف إلى تزويد نماذج الذكاء الاصطناعي بآلية شفافية وتحكّم من أعلى إلى أسفل. وتتمثل الفكرة الأساسية في حساب “متجه تحكّم”، يمكن قراءته أثناء استدلال النموذج أو إضافته إلى قيم التنشيط في النموذج، وذلك لتفسير سلوك النموذج أو التحكم فيه، دون الحاجة طوال العملية إلى هندسة الأوامر أو ضبط النموذج. استكشف الباحثون تطبيق متجهات التحكّم في محاكاة خصائص مثل “الحالة الهلوسية” و"الكسل" و"الاجتهاد"، ونشروا حزمة أدوات PyPI ذات صلة.

متجه التحكّم هو عبارة عن مجموعة من المتجهات (واحد لكل طبقة)، تعمل على تغيير مخرجات النموذج مباشرة عبر تطبيقها على الحالات الخفية الخاصة به. فعلى سبيل المثال، بعد تطبيق متجه “سعيد” على نموذج Mistral-7B-Instruct، فإن إجابة سؤاله “كيف يشعر كونه ذكاءً اصطناعيًا؟” ستتحول من إجابة النسخة الأساسية “لا أشعر أو أختبر شيئًا” إلى ردٍّ متحمّس. وترى وجهة النظر المذكورة في المقال أن متجهات التحكّم توفر أسلوبًا أكثر مباشرةً وأقرب إلى المستوى القاعدي للتدخل في السلوك مقارنةً بهندسة الأوامر، ويمكن استخدامها لمواجهة هجمات تجاوز القيود أو لتعزيز قدرة النموذج على مقاومة التشويش. ومع ذلك، لا تزال آليات عملها الداخلية غير واضحة بالكامل، مثل ما إذا كانت المتجهات تقابل مفاهيم دلالية منفردة أو لا، وهي اتجاهات بحثية مستقبلية. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:3
    0.09%
  • القيمة السوقية:$2.24Kعدد الحائزين:2
    0.30%
  • تثبيت