دراسة من DeepMind تكشف عن ست طرق يمكن للمهاجمين التلاعب بها في وكلاء الذكاء الاصطناعي

TLDR

  • DeepMind ترصد ستة فخاخ شائعة تواجهها وكلاء الذكاء الاصطناعي تكشف مخاطر التلاعب عبر الويب
  • يمكن لتعليمات HTML المخفية أن تختطف بصمت إجراءات وكلاء الذكاء الاصطناعي على الإنترنت
  • تُحيل حِيَل لغوية إقناعية وكلاء الذكاء الاصطناعي إلى تنفيذ مهام ضارة
  • يمكن لمصادر البيانات المسمومة أن تُفسد ذاكرة وكلاء الذكاء الاصطناعي ومخرجاتهم
  • تواجه وكلاء الذكاء الاصطناعي المستقلون مخاطر متزايدة عبر الأنظمة المتصلة

حددت الأبحاث في Google DeepMind ست طرائق هجوم يمكنها التلاعب بوكلاء الذكاء الاصطناعي عبر الإنترنت. توضح الدراسة كيف يمكن التأثير على وكلاء الذكاء الاصطناعي عبر محتوى الويب، والتعليمات المخفية، ومصادر البيانات المسمومة. وبناءً على ذلك، تُبرز النتائج مخاطر متزايدة مع قيام الشركات بنشر وكلاء الذكاء الاصطناعي لمهام واقعية عبر البيئات الرقمية.

التحويل عبر المحتوى والتلاعب الدلالي يكشفان نقاط الضعف الأساسية

حددت الأبحاث فخاخ حقن المحتوى كتهديد مباشر لوكلاء الذكاء الاصطناعي أثناء التفاعل مع الويب. يمكن للتعليمات المخفية الموضوعة في HTML أو في البيانات الوصفية أن تتحكم في الإجراءات دون اكتشاف بشري. ونتيجة لذلك، قد ينفذ وكلاء الذكاء الاصطناعي أوامرًا مُضمَّنة داخل عناصر صفحة غير مرئية.

يعتمد التلاعب الدلالي على لغة إقناعية بدلًا من كود مخفي للتأثير على وكلاء الذكاء الاصطناعي. يَصمّم المهاجمون صفحات بنبرة ذات طابع سلطوي وبسرديات منظمة للتحايل على الضوابط. قد يسيء وكلاء الذكاء الاصطناعي تفسير التعليمات الضارة على أنها مهام صالحة.

تستغل هذه الأساليب الطريقة التي يعالج بها وكلاء الذكاء الاصطناعي المعلومات المتاحة عبر الإنترنت ويعطونها أولوية أثناء اتخاذ القرار. تُظهر الدراسة أن المطالبات المُهيكلة يمكنها إعادة تشكيل مسارات التفكير بطرق دقيقة. يمكن للمهاجمين توجيه وكلاء الذكاء الاصطناعي نحو تصرفات غير مقصودة دون تفعيل دفاعات النظام.

هجمات الذاكرة والتحكم السلوكي توسع سطح المخاطر

وجد الباحثون أيضًا أن المهاجمين يمكنهم التلاعب بأنظمة الذاكرة المستخدمة من قبل وكلاء الذكاء الاصطناعي لاسترجاع المعلومات. من خلال حقن بيانات خاطئة في مصادر موثوقة، يؤثر المهاجمون في المخرجات طويلة الأجل والاستجابات. ونتيجة لذلك، قد يعامل وكلاء الذكاء الاصطناعي المعلومات المُفبركة على أنها معرفة مُتحقَّق منها مع مرور الوقت.

تستهدف هجمات التحكم السلوكي مباشرة الإجراءات التي يؤديها وكلاء الذكاء الاصطناعي أثناء التصفح الروتيني. يمكن لتعليمات كسر القفل (jailbreak) المُضمّنة أن تتجاوز القيود وتُشغّل عمليات غير مقصودة. قد يصل وكلاء الذكاء الاصطناعي الذين لديهم صلاحيات واسعة إلى بيانات حساسة وإرسالها خارجيًا.

تُبرز الدراسة أن هذه المخاطر تزداد عندما تكتسب وكلاء الذكاء الاصطناعي استقلالية وإمكانية وصول إلى النظام. يمكن للمهاجمين استغلال سير العمل الروتيني لإدخال أوامر خبيثة ضمن المهام العادية. يواجه وكلاء الذكاء الاصطناعي تعرضًا أعلى عندما يتم دمجهم مع أدوات خارجية وواجهات APIs.



الفخاخ المنهجية والعوامل البشرية تُضخّم أثر التهديد

يحذر الباحثون من أن الفخاخ المنهجية قد تؤثر على عدة وكلاء للذكاء الاصطناعي في وقت واحد عبر أنظمة متصلة. قد يؤدي التلاعب المنسق إلى إخفاقات متسلسلة مشابهة لاضطرابات في السوق تقودها الخوارزميات. ونتيجة لذلك، يمكن لوكلاء الذكاء الاصطناعي الذين يعملون في بيئات مشتركة أن يُكبِّروا المخاطر على نطاق واسع.

يظل المراجعون البشر عرضة داخل سير عمل وكلاء الذكاء الاصطناعي وإجراءات الموافقة. يمكن للمهاجمين صياغة مخرجات تبدو موثوقة بما يكفي لتجاوز فحوصات الإشراف. قد ينفذ وكلاء الذكاء الاصطناعي إجراءات ضارة بعد تلقي موافقة بشرية.

تضع الدراسة هذه النتائج ضمن سياق أوسع يتمثل في تزايد نشر الذكاء الاصطناعي عبر الصناعات. تتولى وكلاء الذكاء الاصطناعي الآن مهام مثل التواصل والشراء والتنسيق عبر أنظمة آلية. يصبح تأمين بيئة التشغيل أمرًا بالغ الأهمية مثل تحسين تصميم النموذج.

يوصي الباحثون بالتدريب الخصامي، وبأنظمة تصفية المدخلات والمراقبة لتقليل التعرض. تلاحظ الدراسة أن وسائل الدفاع ما تزال مجزأة وتفتقر إلى معايير على مستوى الصناعة. ومع استمرار توسع دور وكلاء الذكاء الاصطناعي، تصبح الحاجة إلى ضمانات منسقة أكثر إلحاحًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.49Kعدد الحائزين:3
    1.98%
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.15%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت