هل يمكن للذكاء الاصطناعي أن يحل محل المحللين الماليين؟
اختبار إصدار Vals AI الجديد فشل تمامًا،
نسبة دقة GPT 5.5 بالكاد تتجاوز النصف

robot
إنشاء الملخص قيد التقدم

AIMPACT رسالة، 14 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت وكالة تقييم الذكاء الاصطناعي Vals AI اختبار المعيار للجيل الثاني من الوكيل المالي (Finance Agent v2). هذا اختبار شامل يحاكي سير عمل محلل مالي مبتدئ، ويشمل 927 سؤال مراجعة من قبل خبراء. زادت صعوبة الاختبار بشكل كبير في الإصدار الجديد، حيث حقق GPT 5.5 دقة بنسبة 51.76% فقط وتصدر الترتيب، متساويًا مع Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%).
على عكس الأسئلة ذات الجولة الواحدة، يتطلب هذا الاختبار من النموذج البحث بشكل مستقل عن الفقرات ذات الصلة في تقارير 10-K و10-Q المالية التي تمتد لمئات الصفحات، ومعالجة التعديلات على البيانات المالية عبر السنوات، وإجراء حسابات متعددة الخطوات مع أرقام وسطية دقيقة.
كشفت Vals AI أنه إذا تم اعتماد معيار تقييم صارم يتطلب الإجابة الصحيحة تمامًا، فإن دقة جميع النماذج المتقدمة ستنخفض إلى أقل من 40%؛ وفي فئتي “النمذجة المالية” و"تحليل السوابق"، كانت أعلى درجة فقط 23%.
أما بالنسبة للنماذج الأخرى، فاحتل Kimi K2.6 المركز الخامس بنسبة 44.87%، وهو أعلى نموذج محلي من حيث الأداء؛ يليه GLM 5.1 بنسبة 44.79% وDeepSeek V4 بنسبة 44.08%.
بالإضافة إلى ذلك، منحت الجهة الرسمية علامة “الأسرع سرعة” لـClaude Opus 4.7 (زمن استغراق كل عملية 360 ثانية)، وحصلت GLM 5.1 على علامة “الأكثر توفيرًا للميزانية” (تكلفة كل عملية 0.62 دولار).
أظهر تراجع نتائج الاختبار الجماعي (حيث كانت نتيجة Opus 4.7 في الجيل السابق 64.4%) أن شيئًا واحدًا واضح: الذكاء الاصطناعي الحالي يمكنه التعامل مع البحث البسيط، لكنه لا يزال بعيدًا عن القدرة على استبدال المحللين الماليين في المناطق العميقة من التمويل التي تتطلب الالتزام بالمعايير الصناعية الدقيقة والدقة العالية في الأرقام.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت