أصدرت V4 مجموعتين من تقييمات الاستدلال الرسمي. في السيناريوهات العملية، حقق V4-Flash-Max درجة 81.00 في اختبار Putnam-200 Pass@8، متفوقًا على Seed-2.0-Prover و Gemini 3 Pro و Seed-1.5-Prover. في السيناريوهات المتقدمة، يتم استخدام استدلال مختلط: أولاً توليد شرح باللغة الطبيعية والتحقق من صحته ذاتيًا، ثم إتمام الإثبات الصارم باستخدام Lean. حصلت على الدرجة الكاملة 120/120 في اختبار Putnam-2025، متساوية مع Axiom في المركز الأول، متقدمة على Seed-1.5-Prover و Aristotle.

MeNews

2026-04-24 05:23:20

إنشاء الملخص قيد التقدم

أخبار ME News، 24 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أعلنت V4 عن مجموعتين من تقييمات الاستدلال الرياضي الرسمي. مسابقة Putnam (مسابقة بتمنا) هي أعلى مسابقة رياضيات جامعية على مستوى أمريكا الشمالية. في سيناريو الاستخدام العملي، حققت V4-Flash-Max درجة 81.00 على معيار Putnam-200 Pass@8، باستخدام أدوات مفتوحة المصدر مثل LeanExplore وعينة مقيدة. للمقارنة، كانت درجة Seed-2.0-Prover 35.50، وGemini 3 Pro وSeed-1.5-Prover كلاهما 26.50. في سيناريو الحدود (Frontier Regime)، تعتمد V4 على خطة استدلال غير رسمية-مختلطة، حيث يتم أولاً توليد حلول طبيعية غير رسمية باستخدام التفكير غير الرسمي، ثم يتم تصفيتها عبر التحقق الذاتي، ثم يتم إكمال الإثبات الصارم بواسطة وكيل رسمي في Lean. حققت V4 درجة 120/120 في مسابقة Putnam-2025، متساوية مع Axiom في المركز الأول، متفوقة على Seed-1.5-Prover الذي حصل على 110/120 وAristotle الذي حصل على 100/120. استخدم سيناريو الحدود توسعة حسابية واسعة النطاق، بينما تعكس نتائج السيناريو العملي قدرة النشر العادية بشكل أفضل. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
276.72K درجة الشعبية
#
比特币Breaks79K
11.67M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
34.28K درجة الشعبية
#
CryptoMarketsRiseBroadly
84.98K درجة الشعبية
#
WHCADinnerShootingIncident
13.96K درجة الشعبية

تثبيت

خريطة الموقع

V4 في Putnam-2025 حصل على 120 درجة كاملة، والاستدلال الرياضي الرسمي يضاهي Axiom

المواضيع الرائجة

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

تثبيت