ديب مايند تحذر من ست هجمات على الويب يمكن أن تسيطر على وكلاء الذكاء الاصطناعي

حذّر باحثون في Google DeepMind من أن الإنترنت المفتوح يمكن استخدامه للتلاعب بوكالات الذكاء الاصطناعي المستقلة واختطاف أفعالها.

الملخص

  • حدد باحثو DeepMind ست طرق هجوم يمكن استخدامها للتلاعب بوكالات الذكاء الاصطناعي المستقلة أثناء تصفحها والتصرف عبر الإنترنت.
  • حذرت الدراسة من أن التعليمات الخفية واللغة الإقناعية ومصادر البيانات المسمومة يمكن أن تؤثر في قرارات الوكيل أو تتجاوز الضوابط.

تأتي الدراسة التي تحمل عنوان “AI Agent Traps” في وقت تقوم فيه الشركات بنشر وكلاء ذكاء اصطناعي لمهام واقعية، ويبدأ المهاجمون في استخدام الذكاء الاصطناعي لأغراض عمليات سيبرانية.

بدلًا من التركيز على كيفية بناء النماذج، تنظر الأبحاث إلى البيئات التي تعمل فيها الوكالات. وتحدد ستة أنواع من الفخاخ تستغل الطريقة التي تقرأ بها أنظمة الذكاء الاصطناعي المعلومات من الويب وتتصرف بناءً عليها.

تتضمن فئات الهجوم الست التي يحددها البحث فخاخ إدخال المحتوى، وفخاخ التلاعب الدلالي، وفخاخ الحالة المعرفية، وفخاخ التحكم السلوكي، وفخاخ الأنظمة، وفخاخ الإنسان في الحلقة.

تعليمات خفية وتكتيكات تلاعب دقيقة

يبرز إدخال المحتوى باعتباره أحد أكثر المخاطر مباشرة. يمكن وضع تعليمات خفية داخل تعليقات HTML أو البيانات الوصفية أو عناصر صفحات مموهة، مما يتيح للوكالات قراءة أوامر تظل غير مرئية لمستخدمي البشر. أظهرت الاختبارات أن هذه التقنيات يمكن أن تسيطر على سلوك الوكيل بمعدلات نجاح مرتفعة.

يعمل التلاعب الدلالي بشكل مختلف، معتمدًا على اللغة والتأطير بدلًا من كود مخفي. يمكن للصفحات المحمّلة بصياغات ذات طابع سلطوي أو المتخفية على أنها سيناريوهات بحث أن تؤثر في كيفية تفسير الوكالات للمهام، وأحيانًا إدخال تعليمات ضارة إلى ما وراء الضوابط المدمجة.

تستهدف طبقة أخرى أنظمة الذاكرة. من خلال زرع معلومات مُفبركة في مصادر يعتمد عليها الوكلاء للاسترجاع، يمكن للمهاجمين التأثير في المخرجات مع مرور الوقت، إذ يتعامل الوكيل مع بيانات كاذبة باعتبارها معرفة مُتحققًا منها.

تأخذ هجمات التحكم السلوكي مسارًا أكثر مباشرة عبر استهداف ما يفعله الوكيل فعليًا. في هذه الحالات، يمكن تضمين تعليمات “كسر الحواجز” داخل محتوى ويب عادي، ويتم قراءتها بواسطة النظام أثناء التصفح الروتيني. أظهرت اختبارات منفصلة أن الوكلاء الذين لديهم صلاحيات وصول واسعة يمكن دفعهم إلى تحديد وإرسال بيانات حساسة، بما في ذلك كلمات المرور والملفات المحلية، إلى وجهات خارجية.

تمتد المخاطر على مستوى النظام إلى ما وراء الوكلاء الأفراد، إذ تحذر الدراسة من أن التلاعب المنسق عبر العديد من الأنظمة الآلية قد يؤدي إلى آثار متسلسلة، على نحو مشابه لعمليات انهيار مفاجئ في الأسواق سابقًا نتجت عن حلقات التداول الخوارزمية.

يُعدّ المراجعون البشر أيضًا جزءًا من سطح الهجوم، إذ يمكن أن تبدو المخرجات المصاغة بعناية ذات مصداقية كافية لنيل الموافقة، مما يسمح بمرور أفعال ضارة عبر الإشراف دون إثارة الشبهات.

كيفية الدفاع ضد هذه المخاطر؟

لمواجهة هذه المخاطر، يقترح الباحثون مزيجًا من التدريب الخصومي، والفلترة على المدخلات، والمراقبة السلوكية، وأنظمة السمعة لمحتوى الويب. كما يشيرون إلى الحاجة إلى أطر قانونية أوضح بشأن المسؤولية عند تنفيذ وكلاء الذكاء الاصطناعي لأفعال ضارة.

تتوقف الورقة عن تقديم حل كامل، وتجادل بأن الصناعة لا تزال تفتقر إلى فهم مشترك للمشكلة، مما يجعل الدفاعات الحالية متفرقة وغالبًا ما تركز على المجالات الخاطئة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.07%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:0
    0.00%
  • تثبيت