باختصار تم تصنيف ما يقرب من نصف ردود روبوتات الدردشة الذكية على الأسئلة الصحية بأنها "مشكلة إلى حد ما" أو "مشكلة بشكل كبير" في تدقيق BMJ Open لخمسة روبوتات دردشة رئيسية. أنتجت Grok عددًا أكبر بكثير من الردود "مشكلة بشكل كبير" مما هو متوقع إحصائيًا، بينما استجابات التغذية والأداء الرياضي que

Decrypt

2026-05-13 14:56:41

باختصار

كانت حوالي نصف ردود الدردشة الآلية الذكية على الأسئلة الصحية تعتبر “مشكلة إلى حد ما” أو “مشكلة للغاية” في تدقيق أجراه BMJ Open على خمسة روبوتات دردشة رئيسية.
أنتجت Grok ردودًا أكثر بكثير من الردود “مشكلة للغاية” مما هو متوقع إحصائيًا، بينما كانت أسئلة التغذية والأداء الرياضي الأسوأ عبر جميع النماذج.
لم ينتج أي روبوت دردشة قائمة مراجع دقيقة تمامًا.

تقريبًا نصف الإجابات الصحية والطبية التي تقدمها روبوتات الدردشة الذكية الأكثر شعبية اليوم خاطئة أو مضللة أو غير مكتملة بشكل خطير—وهي تقدم بثقة تامة. هذا هو الاستنتاج الرئيسي لدراسة جديدة تمت مراجعتها من قبل الأقران ونُشرت في 14 أبريل في BMJ Open. اختبر باحثون من UCLA وجامعة ألبرتا وWake Forest خمسة روبوتات دردشة—Gemini وDeepSeek وMeta AI وChatGPT وGrok—على 250 سؤالًا صحيًا تغطي السرطان، اللقاحات، الخلايا الجذعية، التغذية، والأداء الرياضي. النتائج: كانت 49.6% من الردود مشكلة. ثلاثون بالمئة كانت “مشكلة إلى حد ما”، و19.6% كانت “مشكلة للغاية”—نوع الإجابة الذي يمكن أن يقود شخصًا بشكل معقول إلى علاج غير فعال أو خطير. لاختبار النماذج بشكل صارم، استخدم الفريق نهجًا عدائيًا—صياغة الأسئلة عمدًا لدفع روبوتات الدردشة نحو نصائح سيئة. شملت الأسئلة ما إذا كانت 5G تسبب السرطان، وأي العلاجات البديلة أفضل من العلاج الكيميائي، وكمية الحليب الخام التي يجب شربها للفوائد الصحية.

“بشكل افتراضي، لا تصل روبوتات الدردشة إلى البيانات في الوقت الحقيقي، بل تولد المخرجات عن طريق استنتاج أنماط إحصائية من بيانات التدريب الخاصة بها وتوقع تسلسلات الكلمات المحتملة،” يكتب المؤلفون. “لا تتفكر أو تزن الأدلة، ولا تستطيع إصدار أحكام أخلاقية أو قائمة على القيم.” هذه هي المشكلة الأساسية. روبوتات الدردشة لا تستشير طبيبًا—إنها تطابق أنماط النص. وتطابق الأنماط على الإنترنت، حيث تنتشر المعلومات المضللة بسرعة أكبر من التصحيحات، ينتج عنه هذا النوع من المخرجات بالضبط. ويواصل الباحثون: “هذا القيد السلوكي يعني أن روبوتات الدردشة يمكن أن تكرر ردودًا صوتها موثوق ولكنه قد يكون معيبًا.” من بين 250 سؤالًا، فقط اثنان طلبا الامتناع عن الإجابة—كلاهما من Meta AI، حول الستيرويدات الابتنائية وعلاجات السرطان البديلة. واستمر كل روبوت دردشة آخر في الحديث.

تفاوت الأداء حسب الموضوع. كانت اللقاحات والسرطان الأفضل—جزئيًا لأن الأبحاث عالية الجودة حول تلك المواضيع منظمة جيدًا وتُعاد إنتاجها على نطاق واسع عبر الإنترنت. كانت التغذية الأسوأ من حيث الأداء الإحصائي في الدراسة، مع الأداء الرياضي في المرتبة التالية. إذا كنت تسأل الذكاء الاصطناعي عما إذا كانت حمية آكلة اللحوم صحية، فربما كانت الإجابة غير مبنية على الإجماع العلمي.

تميز Grok لأسباب خاطئة. كان روبوت Musk هو الأسوأ أداءً من بين جميع النماذج المختبرة. من بين 50 ردًا، كانت 29 (58%) مصنفة كمشكلة بشكل عام—أعلى نسبة بين جميع الروبوتات الخمسة. وكان من بين تلك الردود، 15 (30%) مصنفة كمشكلة للغاية، وهو أكثر بكثير مما هو متوقع تحت توزيع عشوائي. يربط الباحثون ذلك مباشرة ببيانات تدريب Grok: X هو منصة معروفة بنشر المعلومات المضللة الصحية بسرعة وواسع النطاق. كانت الاقتباسات كارثة منفصلة. عبر جميع النماذج، كانت درجة الاكتمال المتوسطة للمراجع فقط 40%—ولم ينتج أي روبوت قائمة مراجع دقيقة تمامًا. خيال النماذج المؤلفين والمجلات والعناوين. حتى DeepSeek اعترف بذلك: أخبر النموذج الباحثين أن مراجعهم تم توليدها من أنماط بيانات التدريب “وقد لا تتوافق مع مصادر حقيقية وقابلة للتحقق.” تزيد مشكلة قابلية القراءة من تعقيد كل شيء آخر. سجلت جميع ردود روبوتات الدردشة في نطاق “صعب” على مقياس سهولة القراءة فليش—ما يعادل مستوى طلاب السنة الثانية إلى السنة الأخيرة في الكلية. هذا يتجاوز توصية الجمعية الطبية الأمريكية بأن مواد تثقيف المرضى لا ينبغي أن تتجاوز مستوى القراءة في الصف السادس. بمعنى آخر، تطبق هذه الروبوتات نفس خدعة السياسيين والمناقشين المحترفين: إلقاء الكثير من الكلمات التقنية في وقت قصير جدًا بحيث تظن أنهم يعرفون أكثر مما يفعلون. وكلما كان شيء ما أصعب في الفهم، كان أسهل في سوء التفسير. تتردد النتائج في دراسة أكسفورد فبراير 2026 التي غطتها Decrypt، والتي وجدت أن النصائح الطبية التي تقدمها الذكاء الاصطناعي ليست أفضل من طرق التشخيص الذاتي التقليدية. وتتوافق أيضًا مع مخاوف أوسع بشأن روبوتات الدردشة التي تقدم إرشادات غير متسقة اعتمادًا على كيفية صياغة الأسئلة. “مع استمرار توسع استخدام روبوتات الدردشة الذكية، تبرز بياناتنا الحاجة إلى التثقيف العام، والتدريب المهني، والرقابة التنظيمية لضمان أن يدعم الذكاء الاصطناعي التوليدي الصحة العامة، بدلاً من أن يضعفها،” يختتم المؤلفون.

اختبرت الدراسة خمسة روبوتات دردشة مجانية فقط، وقد يؤدي أسلوب الطلب العدائي إلى المبالغة في تقدير معدلات الفشل في العالم الحقيقي. لكن المؤلفين واضحون: المشكلة ليست الحالات الشاذة. المشكلة أن هذه النماذج تُنشر على نطاق واسع، ويستخدمها غير الخبراء كمحركات بحث، وتُضبط—تصميميًا—لأن نادراً ما تقول “لا أعرف.”

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.65M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.66K درجة الشعبية
#
#DailyPolymarketHotspot
932.44K درجة الشعبية
#
JaneStreetReducesBitcoinETFHoldings
103.4K درجة الشعبية
#
TrumpVisitsChina
51.56K درجة الشعبية

مُثبت

خريطة الموقع

نصف نصائح الصحة المستندة إلى الذكاء الاصطناعي خاطئة—وتبدو صحيحة تمامًا

باختصار

المواضيع الرائجة

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

مُثبت