بالإضافة إلى تدفق رأس المال الذي يتجه نحو الذكاء الاصطناعي، هناك قائمة طويلة ومعظمها غير محسوم من العقبات الحقيقية أمام الانتشار الجماعي. من بينها التلوث التكراري للبيانات. تولد النماذج اللغوية الكبيرة كميات هائلة من المحتوى، والذي يُستخدم بعد ذلك كمادة تدريب للجيل التالي من النماذج. تتفاقم الأخطاء والهلوسة مع كل دورة. هذا يشبه النسخ المتكرر لنسخة: الجودة تتدهور باستمرار، وفي النهاية يصبح من المستحيل تحديد المصدر الأصلي. تتجه الصناعة بالفعل إلى البيانات الاصطناعية لتعويض نقص المحتوى البشري عالي الجودة، — ومع ذلك، فإن ذلك يعرض للخطر تسريع التدهور بدلاً من القضاء عليه. المشكلة الأكثر خطورة هي تلوث البيانات. يمكن للمهاجمين عمدًا تشويه مجموعة البيانات التدريبية، و«السم» الذي يُزرع مرة واحدة يبقى في النموذج إلى الأبد. السيناريو العسكري هو الأخطر بشكل خاص: الذكاء الاصطناعي المدرب على التعرف على الأصدقاء والأعداء استنادًا إلى بيانات مخترقة، سيكتشف ثغرة خفية فقط في خضم نزاع حقيقي. من المسجل أن تلوث نماذج اللغة بأي حجم يتطلب فقط 250 وثيقة ضارة — مما يجعل الهجمات على بيانات التدريب ليست تهديدًا افتراضيًا، بل مشكلة أمن سيبراني حقيقية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت