Vals AI أعلنت عن معيار Finance Agent v2، بما في ذلك اختبار شامل يتكون من 927 سؤالًا، يتطلب تحديد الفقرات ذات الصلة في تقارير 10-K/10-Q وإجراء حسابات متعددة الخطوات مع أرقام وسطية. GPT-5.5 بنسبة 51.76%، Claude Opus 4.7 بنسبة 51.51%، وClaude Sonnet 4.6 بنسبة 51.03% يتقاسمون المركز الأول؛ وإذا تم فرض أن يكون الإجابة صحيحة تمامًا، فإن معدل الدقة يكون عادة أقل من 40%، وأصعب فئة تصل إلى 23%. من ناحية المنتجات المحلية، Kimi K2.6 بنسبة 44.87%، GLM 5.1 بنسبة 44.79%، وDeepSeek V4 بنسبة 44.08%. الأسرع هو Opus 4.7 (360 ثانية)، وأوفر تكلفة هو GLM 5.1 (0.62 دولار). تشير التقييمات الإجمالية إلى أن الذكاء الاصطناعي لا يزال قادرًا على أداء عمليات البحث فقط، ويصعب أن يحل محل المحللين الماليين الذين يتطلب عملهم دقة عالية في الأرقام.

BlockBeatNews

2026-05-14 09:51:13

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدرت وكالة تقييم الذكاء الاصطناعي Vals AI اختبار المعيار للجيل الثاني من الوكيل المالي (Finance Agent v2). هذا اختبار شامل يحاكي سير عمل محلل مالي مبتدئ، ويشمل 927 سؤال مراجعة من خبراء. زادت صعوبة الاختبار بشكل كبير في الإصدار الجديد، حيث حقق GPT 5.5 معدل دقة بنسبة 51.76% في الصدارة، متساويًا تقريبًا مع Claude Opus 4.7 (51.51%) وClaude Sonnet 4.6 (51.03%).

على عكس الأسئلة ذات الجولة الواحدة، يتطلب هذا الاختبار من النموذج البحث بشكل مستقل في مئات الصفحات من تقارير 10-K و10-Q المالية، ومعالجة التعديلات على البيانات المالية عبر السنوات، وإتمام عمليات حسابية متعددة بدقة باستخدام الأرقام الوسيطة. كشفت Vals AI أنه إذا تم اعتماد معيار تقييم صارم يتطلب الإجابة الصحيحة تمامًا، فإن جميع النماذج المتقدمة تنخفض دقتها إلى أقل من 40%؛ وفي أصعب فئتين هما “النمذجة المالية” و"التحليل السابق"، كانت أعلى درجة فقط 23%.

أما بالنسبة للنماذج الأخرى، فاحتل Kimi K2.6 المركز الخامس بنسبة 44.87%، وهو أعلى نموذج محلي الصنع؛ يليه GLM 5.1 بنسبة 44.79% وDeepSeek V4 بنسبة 44.08%. بالإضافة إلى ذلك، منحت الجهة الرسمية علامة “الأسرع سرعة” لـClaude Opus 4.7 (زمن استهلاك لكل استجابة 360 ثانية)، وحصلت GLM 5.1 على علامة “الأكثر توفيرًا للميزانية” (تكلفة كل استجابة 0.62 دولار).

هذا الانخفاض الجماعي في نتائج الاختبار (حيث كانت نتيجة الإصدار السابق Opus 4.7 64.4%) يثبت نقطة واحدة: أن الذكاء الاصطناعي الحالي يمكنه التعامل مع البحث البسيط، لكنه لا يزال بعيدًا عن القدرة على التعامل مع المناطق العميقة في التمويل التي تتطلب الالتزام بالمعايير الصناعية الدقيقة والدقة العالية في الأرقام، ولا يمكنه بعد استبدال المحللين البشريين.

4‎-2.5%

GLM‎-0.91%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.63M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.65K درجة الشعبية
#
#DailyPolymarketHotspot
933.03K درجة الشعبية
#
JaneStreetReducesBitcoinETFHoldings
102.92K درجة الشعبية
#
TrumpVisitsChina
60.91K درجة الشعبية

مُثبت

خريطة الموقع

هل يمكن للذكاء الاصطناعي أن يحل محل المحللين الماليين؟ فحص إصدار Vals AI الجديد انتهى بالفشل الذريع، ودقة GPT 5.5 بالكاد تتجاوز النصف

المواضيع الرائجة

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

مُثبت