اقترح الباحثون طريقة هندسة الميزات، من خلال التدخل في سلوك النموذج عبر متجهات التحكم

robot
إنشاء الملخص قيد التقدم

أخبار ME، 4 أبريل (UTC+8)، في الآونة الأخيرة، تم طرح منهج بحثي باسم “هندسة التمثيل”، يهدف إلى تزويد نماذج الذكاء الاصطناعي بطريقة شفافة ومنضبطة من الأعلى إلى الأسفل. تتمثل الفكرة الأساسية في حساب “متجه تحكم” يمكن قراءته أثناء استدلال النموذج أو إضافته إلى قيم تنشيط النموذج، وذلك لتفسير سلوك النموذج أو التحكم فيه، دون الحاجة إلى الاعتماد على هندسة التوجيهات أو ضبط النموذج. استكشف الباحثون تطبيق متجهات التحكم في محاكاة خصائص مثل “الحالة المهلوسة” و"الكسل" و"الاجتهاد"، ونشروا حزمة أدوات PyPI ذات الصلة.
متجه التحكم عبارة عن مجموعة من المتجهات (واحد لكل طبقة)، تعمل على تغيير مخرجات النموذج مباشرة عبر تطبيقها على الحالات المخفية. على سبيل المثال، عند تطبيق متجه “سعيد” على نموذج Mistral-7B-Instruct، فإن إجابةه عن سؤال: “كيف يبدو أن تكون ذكاءً اصطناعياً؟” ستنتقل من إجابة النسخة الأساسية “لا أشعر أو لا أمتلك تجربة” إلى ردٍ متحمس. يرى المقال أن متجهات التحكم، مقارنةً بهندسة التوجيهات، توفر طريقة أكثر مباشرة وأكثر طبقة-أسفل للتدخل في السلوك، ويمكن استخدامها لمواجهة هجمات تجاوز الحماية (jailbreak) أو لتعزيز قدرة النموذج على مقاومة التشويش. ومع ذلك، لا تزال آلية عملها الداخلية غير واضحة بالكامل؛ فمثلاً، هل يتوافق المتجه مع مفهوم دلالي واحد أم لا؟ يُعد هذا من اتجاهات البحث المستقبلية. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • تثبيت