Vals AI أطلقت Finance Agent v2، اختبار شامل لمحاكاة سير عمل المحلل المالي المبتدئ، يتضمن 927 سؤالًا، ويجب تحديد الفقرات وإعطاء أرقام دقيقة في تقارير 10-K/10-Q. فاز GPT-5.5 بنسبة 51.76%، تلاه سلسلة Claude؛ وإذا كان من الضروري الإجابة بشكل صحيح بالكامل، فإن المعدل الدقيق عادة أقل من 40%، وأعلى معدل هو فقط 23%. النموذج المحلي Kimi K2.6 بنسبة 44.87%، وGLM 5.1 بنسبة 44.79%. الأسرع هو Claude Opus 4.7، والأكثر توفيرًا للميزانية هو GLM 5.1. الخلاصة: يمكن للذكاء الاصطناعي في المرحلة الحالية إجراء عمليات بحث بسيطة، لكنه لا يزال غير قادر على استبدال المحللين البشريين في المناطق المالية ذات الدقة العالية.

MeNews

2026-05-17 06:58:52

إنشاء الملخص قيد التقدم

AIMPACT رسالة، 14 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت وكالة تقييم الذكاء الاصطناعي Vals AI اختبار المعيار للجيل الثاني من الوكيل المالي (Finance Agent v2). هذا اختبار شامل يحاكي سير عمل محلل مالي مبتدئ، ويشمل 927 سؤال مراجعة من قبل خبراء. زادت صعوبة الاختبار بشكل كبير في الإصدار الجديد، حيث حقق GPT 5.5 دقة بنسبة 51.76% فقط وتصدر الترتيب، متساويًا مع Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%).
على عكس الأسئلة ذات الجولة الواحدة، يتطلب هذا الاختبار من النموذج البحث بشكل مستقل عن الفقرات ذات الصلة في تقارير 10-K و10-Q المالية التي تمتد لمئات الصفحات، ومعالجة التعديلات على البيانات المالية عبر السنوات، وإجراء حسابات متعددة الخطوات مع أرقام وسطية دقيقة.
كشفت Vals AI أنه إذا تم اعتماد معيار تقييم صارم يتطلب الإجابة الصحيحة تمامًا، فإن دقة جميع النماذج المتقدمة ستنخفض إلى أقل من 40%؛ وفي فئتي “النمذجة المالية” و"تحليل السوابق"، كانت أعلى درجة فقط 23%.
أما بالنسبة للنماذج الأخرى، فاحتل Kimi K2.6 المركز الخامس بنسبة 44.87%، وهو أعلى نموذج محلي من حيث الأداء؛ يليه GLM 5.1 بنسبة 44.79% وDeepSeek V4 بنسبة 44.08%.
بالإضافة إلى ذلك، منحت الجهة الرسمية علامة “الأسرع سرعة” لـClaude Opus 4.7 (زمن استغراق كل عملية 360 ثانية)، وحصلت GLM 5.1 على علامة “الأكثر توفيرًا للميزانية” (تكلفة كل عملية 0.62 دولار).
أظهر تراجع نتائج الاختبار الجماعي (حيث كانت نتيجة Opus 4.7 في الجيل السابق 64.4%) أن شيئًا واحدًا واضح: الذكاء الاصطناعي الحالي يمكنه التعامل مع البحث البسيط، لكنه لا يزال بعيدًا عن القدرة على استبدال المحللين الماليين في المناطق العميقة من التمويل التي تتطلب الالتزام بالمعايير الصناعية الدقيقة والدقة العالية في الأرقام.
(المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.94M درجة الشعبية
#
CLARITYActPassesSenateCommittee
3.58M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
47.33K درجة الشعبية
#
#DailyPolymarketHotspot
975.32K درجة الشعبية
#
BitcoinVShapedReversalBack
227.15M درجة الشعبية

مُثبت

خريطة الموقع

هل يمكن للذكاء الاصطناعي أن يحل محل المحللين الماليين؟ اختبار إصدار Vals AI الجديد فشل تمامًا، نسبة دقة GPT 5.5 بالكاد تتجاوز النصف

المواضيع الرائجة

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

مُثبت

هل يمكن للذكاء الاصطناعي أن يحل محل المحللين الماليين؟
اختبار إصدار Vals AI الجديد فشل تمامًا،
نسبة دقة GPT 5.5 بالكاد تتجاوز النصف