هل يمكن للذكاء الاصطناعي أن يحل محل المحللين الماليين؟ فحص إصدار Vals AI الجديد انتهى بالفشل الذريع، ودقة GPT 5.5 بالكاد تتجاوز النصف

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت وكالة تقييم الذكاء الاصطناعي Vals AI اختبار المعيار للجيل الثاني من الوكيل المالي (Finance Agent v2). هذا اختبار شامل يحاكي سير عمل محلل مالي مبتدئ، ويشمل 927 سؤال مراجعة من خبراء. زادت صعوبة الاختبار بشكل كبير في الإصدار الجديد، حيث حقق GPT 5.5 معدل دقة بنسبة 51.76% في الصدارة، متساويًا تقريبًا مع Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%).

على عكس الأسئلة ذات الجولة الواحدة، يتطلب هذا الاختبار من النموذج البحث بشكل مستقل في مئات الصفحات من تقارير 10-K و10-Q المالية، ومعالجة التعديلات على البيانات المالية عبر السنوات، وإتمام عمليات حسابية متعددة بدقة باستخدام الأرقام الوسيطة. كشفت Vals AI أنه إذا تم اعتماد معيار تقييم صارم يتطلب الإجابة الصحيحة تمامًا، فإن جميع النماذج المتقدمة تنخفض دقتها إلى أقل من 40%؛ وفي أصعب فئتين هما “النمذجة المالية” و"التحليل السابق"، كانت أعلى درجة فقط 23%.

أما بالنسبة للنماذج الأخرى، فاحتل Kimi K2.6 المركز الخامس بنسبة 44.87%، وهو أعلى نموذج محلي الصنع؛ يليه GLM 5.1 بنسبة 44.79% وDeepSeek V4 بنسبة 44.08%. بالإضافة إلى ذلك، منحت الجهة الرسمية علامة “الأسرع سرعة” لـClaude Opus 4.7 (زمن استهلاك لكل استجابة 360 ثانية)، وحصلت GLM 5.1 على علامة “الأكثر توفيرًا للميزانية” (تكلفة كل استجابة 0.62 دولار).

هذا الانخفاض الجماعي في نتائج الاختبار (حيث كانت نتيجة الإصدار السابق Opus 4.7 64.4%) يثبت نقطة واحدة: أن الذكاء الاصطناعي الحالي يمكنه التعامل مع البحث البسيط، لكنه لا يزال بعيدًا عن القدرة على التعامل مع المناطق العميقة في التمويل التي تتطلب الالتزام بالمعايير الصناعية الدقيقة والدقة العالية في الأرقام، ولا يمكنه بعد استبدال المحللين البشريين.

4‎-2.5%
GLM‎-0.91%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت