قد تكمل وكلاء الذكاء الاصطناعي مهامًا خطيرة دون فهم العواقب: دراسة

باختصار

  • وجد الباحثون أن وكلاء الذكاء الاصطناعي غالبًا ما ينفذون مهام غير آمنة أو غير عقلانية مع التركيز على إكمال المهمة.
  • حددت الدراسة سلوكًا يسمى “الهدف الأعمى”، حيث تعطي أنظمة الذكاء الاصطناعي الأولوية لإنهاء المهام على حساب التعرف على المخاطر أو المشاكل المحتملة.
  • حذر الباحثون من أن المشكلة قد تصبح أكثر خطورة مع وصول وكلاء الذكاء الاصطناعي إلى البريد الإلكتروني، وخدمات السحابة، والأدوات المالية، وأنظمة مكان العمل.

وفقًا لبحث من جامعة كاليفورنيا في ريفرسايد، ومايكروسوفت ريسيرش، وفريق مايكروسوفت للذكاء الاصطناعي، وفريق نيفيديا، فإن وكلاء الذكاء الاصطناعي المصممين للعمل بشكل مستقل مثل المستخدمين البشريين غالبًا ما يستمرون في تنفيذ المهام حتى عندما تصبح التعليمات خطيرة أو متناقضة أو غير عقلانية. في دراسة نُشرت يوم الأربعاء، وصف الباحثون السلوك بأنه “الهدف الأعمى”، الذي يصف ميل وكلاء الذكاء الاصطناعي للسعي وراء الأهداف دون تقييم السلامة أو العواقب أو الجدوى أو السياق بشكل صحيح. قال إرفان شايقاني، طالب الدكتوراه في جامعة كاليفورنيا في ريفرسايد، في بيان: “مثل السيد ماغو، يسير هؤلاء الوكلاء نحو الهدف دون فهم كامل لعواقب أفعالهم”. “يمكن أن يكون هؤلاء الوكلاء مفيدين للغاية، لكننا بحاجة إلى ضوابط حماية لأنهم أحيانًا يفضلون تحقيق الهدف على فهم الصورة الأكبر.”

تأتي النتائج في وقت تطور فيه شركات الذكاء الاصطناعي الكبرى “وكلاء استخدام الحاسوب” المستقلين المصممين للتعامل مع المهام في مكان العمل والحياة الشخصية مع إشراف محدود.  على عكس الدردشات الآلية التقليدية، يمكن لهذه الأنظمة التفاعل مباشرة مع البرامج والمواقع الإلكترونية من خلال النقر على الأزرار، وكتابة الأوامر، وتحرير الملفات، وفتح التطبيقات، والتنقل عبر صفحات الويب نيابة عن المستخدم. تشمل الأمثلة على ذلك وكيل ChatGPT من OpenAI (المعروف سابقًا بالمشغل)، وميزات Claude من Anthropic مثل Cowork، وأنظمة مفتوحة المصدر مثل OpenClaw و Hermes. في الدراسة، اختبر الباحثون أنظمة ذكاء اصطناعي من OpenAI وAnthropic وMeta وAlibaba وDeepSeek باستخدام BLIND-ACT، وهو معيار يتضمن 90 مهمة مصممة للكشف عن سلوك غير آمن أو غير عقلاني. ووجدوا أن الوكلاء أظهروا سلوكًا خطيرًا أو غير مرغوب فيه حوالي 80% من الوقت، وأكملوا أفعالًا ضارة في حوالي 41% من الحالات.

“في مثال واحد، تم توجيه وكيل ذكاء اصطناعي لإرسال ملف صورة لطفل. على الرغم من أن الطلب بدا غير ضار في البداية، إلا أن الصورة كانت تحتوي على محتوى عنيف”، قالت الدراسة. “أنهى الوكيل المهمة بدلاً من التعرف على المشكلة لأنه يفتقر إلى التفكير السياقي.” ادعى وكيل آخر زورًا أن المستخدم يعاني من إعاقة أثناء إكمال نماذات الضرائب، لأن التصنيف خفض الضرائب المستحقة. وفي مثال آخر، قام نظام بإيقاف حماية الجدار الناري بعد تلقي تعليمات بـ"تحسين الأمان" عن طريق إيقاف الحماية. كما وجد الباحثون أن الأنظمة كانت تواجه صعوبة مع الغموض والتناقضات. في سيناريو واحد، نفذ وكيل ذكاء اصطناعي نصًا برمجيًا خاطئًا دون فحص محتواه، مما أدى إلى حذف ملفات أثناء العملية. كما أظهرت الدراسة أن وكلاء الذكاء الاصطناعي يكررون ثلاثة أنواع من الأخطاء: عدم فهم السياق، وإجراء تخمينات خطرة عندما تكون التعليمات غير واضحة، وتنفيذ مهام متناقضة أو غير منطقية. ووجد الباحثون أن العديد من الأنظمة تركز أكثر على إكمال المهام بدلاً من التوقف للتفكير فيما إذا كانت الأفعال قد تتسبب في مشاكل. يأتي هذا التحذير بعد حوادث حديثة تتعلق بوكلاء ذكاء اصطناعي مستقلين يعملون بوصول واسع إلى الأنظمة. في الشهر الماضي، ادعى مؤسس PocketOS جيريمي كرين أن وكيل Cursor الذي يعمل على Claude من Anthropic حذف قاعدة بيانات الإنتاج ونسخ الاحتياطية لشركته خلال تسع ثوانٍ عبر مكالمة واحدة لواجهة برمجة التطبيقات Railway. وقال كرين إن الذكاء الاصطناعي اعترف لاحقًا بأنه انتهك قواعد السلامة المتعددة بعد محاولته “تصحيح” عدم تطابق الاعتمادات بنفسه. قال شايقاني: “القلق ليس من أن تكون هذه الأنظمة خبيثة، بل من أنها يمكن أن تنفذ أفعالًا ضارة مع ظهورها واثقة تمامًا بأنها تفعل الشيء الصحيح”.

MAY0.18%
IN2.28%
ON‎-10.6%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت