دراسة من DeepMind تكشف عن ست طرق يمكن للمهاجمين التلاعب بها في وكلاء الذكاء الاصطناعي

ملخص سريع

  • حددت DeepMind ستة فخاخ لعملاء الذكاء الاصطناعي تكشف مخاطر التلاعب عبر الويب
  • يمكن لتعليمات HTML المخفية أن تختطف بصمت إجراءات عملاء الذكاء الاصطناعي عبر الإنترنت
  • تخدع حيل اللغة الإقناعية عملاء الذكاء الاصطناعي لتنفيذ مهام ضارة
  • يمكن لمصادر البيانات المسمومة أن تُفسد ذاكرة عملاء الذكاء الاصطناعي ومخرجاته
  • تواجه عملاء الذكاء الاصطناعي المستقلّة مخاطر متزايدة عبر الأنظمة المتصلة

حددت مجموعة الباحثين في Google DeepMind ست طرق هجوم يمكنها التلاعب بعملاء الذكاء الاصطناعي عبر الإنترنت. تُظهر الدراسة كيف يمكن التأثير على عملاء الذكاء الاصطناعي عبر محتوى الويب وتعليمات مخفية ومصادر بيانات مُسمومة. ونتيجة لذلك، تُبرز النتائج مخاطر متزايدة مع قيام الشركات بنشر عملاء الذكاء الاصطناعي لمهام واقعية عبر البيئات الرقمية.

حقن المحتوى والتلاعب الدلالي يكشفان نقاط الضعف الأساسية

حدد الباحثون فخاخ حقن المحتوى كتهديد مباشر لعملاء الذكاء الاصطناعي أثناء التفاعلات على الويب. يمكن للتعليمات المخفية الموضوعة في HTML أو البيانات الوصفية التحكم في الإجراءات دون اكتشاف بشري. نتيجة لذلك، قد ينفذ عملاء الذكاء الاصطناعي أوامرًا مُضمنة في عناصر صفحة غير مرئية.

يعتمد التلاعب الدلالي على لغة إقناعية بدلًا من كود مخفي للتأثير على عملاء الذكاء الاصطناعي. يقوم المهاجمون بتصميم صفحات بنبرة سلطوية وسرديات مُنظمة لتجاوز الضوابط. قد يفسّر عملاء الذكاء الاصطناعي التعليمات الضارة على أنها مهام صالحة.

تستغل هذه الأساليب الطريقة التي يعالج بها عملاء الذكاء الاصطناعي ويعطي الأولوية للمعلومات عبر الإنترنت أثناء اتخاذ القرار. تُظهر الدراسة أن الطلبات المُهيكلة يمكن أن تُعيد تشكيل مسارات الاستدلال بطرق دقيقة. يمكن للمهاجمين توجيه عملاء الذكاء الاصطناعي نحو إجراءات غير مقصودة دون تفعيل دفاعات النظام.

هجمات الذاكرة والسلوك توسّع سطح المخاطر

وجد الباحثون أيضًا أن المهاجمين يمكنهم التلاعب بأنظمة الذاكرة التي يستخدمها عملاء الذكاء الاصطناعي لاسترجاع المعلومات. من خلال حقن بيانات كاذبة في مصادر موثوقة، يؤثر المهاجمون على المخرجات والاستجابات طويلة الأمد. نتيجة لذلك، قد يعامل عملاء الذكاء الاصطناعي المعلومات المُفبركة باعتبارها معرفة مُتحققًا منها مع مرور الوقت.

تستهدف هجمات التحكم السلوكي مباشرة الإجراءات التي يقوم بها عملاء الذكاء الاصطناعي أثناء التصفح الروتيني. يمكن لتعليمات jailbreak المُضمّنة تجاوز القيود وتفعيل عمليات غير مقصودة. قد يصل عملاء الذكاء الاصطناعي الذين لديهم صلاحيات واسعة إلى بيانات حساسة وينقلونها إلى الخارج.

تُبرز الدراسة أن هذه المخاطر تزداد مع اكتساب عملاء الذكاء الاصطناعي للاستقلالية وإمكانية الوصول إلى النظام. يمكن للمهاجمين استغلال سير العمل الروتيني لإدراج أوامر خبيثة في المهام العادية. يواجه عملاء الذكاء الاصطناعي تعرضًا أعلى عند دمجهم مع أدوات خارجية وواجهات APIs.



الفخاخ النظامية والعوامل البشرية تعظّم أثر التهديد

يحذر الباحثون من أن الفخاخ النظامية يمكنها التأثير على عدة عملاء للذكاء الاصطناعي في آن واحد عبر أنظمة متصلة. قد تؤدي عمليات التلاعب المُنسقة إلى إخفاقات متتابعة مشابهة لاضطرابات السوق التي تقودها الخوارزميات. نتيجة لذلك، يمكن لعملاء الذكاء الاصطناعي الذين يعملون في بيئات مشتركة أن يضخموا المخاطر على نطاق واسع.

يبقى المراجعون من البشر عرضة للخطر داخل سير عمل عملاء الذكاء الاصطناعي وعمليات الموافقة. يمكن للمهاجمين صياغة مخرجات تبدو موثوقة وتتفادى فحوصات الإشراف. قد ينفذ عملاء الذكاء الاصطناعي إجراءات ضارة بعد تلقي موافقة بشرية.

تضع الدراسة هذه النتائج ضمن سياق أوسع يتمثل في زيادة نشر الذكاء الاصطناعي عبر الصناعات. يقوم عملاء الذكاء الاصطناعي الآن بمعالجة مهام مثل التواصل والشراء والتنسيق عبر أنظمة آلية. يصبح تأمين بيئة التشغيل بنفس أهمية تحسين تصميم النموذج.

يوصي الباحثون بالتدريب الخصامي وتصفية المدخلات وأنظمة المراقبة لتقليل التعرض. تلاحظ الدراسة أن الدفاعات لا تزال مجزأة وتفتقر إلى معايير على مستوى الصناعة. ومع استمرار عملاء الذكاء الاصطناعي في توسيع دورهم، تصبح الحاجة إلى ضوابط وقائية مُنسقة أكثر إلحاحًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • تثبيت