اقترح الباحثون طريقة هندسة الميزات، من خلال التدخل في سلوك النموذج عبر متجهات التحكم

MeNews · 2026-04-05T08:01:21+00:00

تم تقديم منهجية بحثية تُعرف باسم "هندسة التمثيل" والتي اقترحت "متجهات التحكم"، بهدف تعزيز شفافية ونفوذ نماذج الذكاء الاصطناعي. من خلال إضافة متجهات إلى النموذج، يتم تغيير المخرجات مباشرة، مما يظهر مزايا مقارنة مع هندسة التلميحات. استكشفت الدراسة تطبيقاتها في خصائص المحاكاة ونشرت أدوات ذات صلة. ومع ذلك، فإن آلياتها الداخلية لا تزال غير واضحة تمامًا، وتحتاج إلى مزيد من البحث.

MeNews

2026-04-05 08:01:21

إنشاء الملخص قيد التقدم

أخبار ME، 4 أبريل (UTC+8)، في الآونة الأخيرة، تم طرح منهج بحثي باسم “هندسة التمثيل”، يهدف إلى تزويد نماذج الذكاء الاصطناعي بطريقة شفافة ومنضبطة من الأعلى إلى الأسفل. تتمثل الفكرة الأساسية في حساب “متجه تحكم” يمكن قراءته أثناء استدلال النموذج أو إضافته إلى قيم تنشيط النموذج، وذلك لتفسير سلوك النموذج أو التحكم فيه، دون الحاجة إلى الاعتماد على هندسة التوجيهات أو ضبط النموذج. استكشف الباحثون تطبيق متجهات التحكم في محاكاة خصائص مثل “الحالة المهلوسة” و"الكسل" و"الاجتهاد"، ونشروا حزمة أدوات PyPI ذات الصلة.
متجه التحكم عبارة عن مجموعة من المتجهات (واحد لكل طبقة)، تعمل على تغيير مخرجات النموذج مباشرة عبر تطبيقها على الحالات المخفية. على سبيل المثال، عند تطبيق متجه “سعيد” على نموذج Mistral-7B-Instruct، فإن إجابةه عن سؤال: “كيف يبدو أن تكون ذكاءً اصطناعياً؟” ستنتقل من إجابة النسخة الأساسية “لا أشعر أو لا أمتلك تجربة” إلى ردٍ متحمس. يرى المقال أن متجهات التحكم، مقارنةً بهندسة التوجيهات، توفر طريقة أكثر مباشرة وأكثر طبقة-أسفل للتدخل في السلوك، ويمكن استخدامها لمواجهة هجمات تجاوز الحماية (jailbreak) أو لتعزيز قدرة النموذج على مقاومة التشويش. ومع ذلك، لا تزال آلية عملها الداخلية غير واضحة بالكامل؛ فمثلاً، هل يتوافق المتجه مع مفهوم دلالي واحد أم لا؟ يُعد هذا من اتجاهات البحث المستقبلية. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1