V4 في Putnam-2025 حصل على 120 درجة كاملة، والاستدلال الرياضي الرسمي يضاهي Axiom

robot
إنشاء الملخص قيد التقدم

أخبار ME News، 24 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أعلنت V4 عن مجموعتين من تقييمات الاستدلال الرياضي الرسمي. مسابقة Putnam (مسابقة بتمنا) هي أعلى مسابقة رياضيات جامعية على مستوى أمريكا الشمالية. في سيناريو الاستخدام العملي، حققت V4-Flash-Max درجة 81.00 على معيار Putnam-200 Pass@8، باستخدام أدوات مفتوحة المصدر مثل LeanExplore وعينة مقيدة. للمقارنة، كانت درجة Seed-2.0-Prover 35.50، وGemini 3 Pro وSeed-1.5-Prover كلاهما 26.50. في سيناريو الحدود (Frontier Regime)، تعتمد V4 على خطة استدلال غير رسمية-مختلطة، حيث يتم أولاً توليد حلول طبيعية غير رسمية باستخدام التفكير غير الرسمي، ثم يتم تصفيتها عبر التحقق الذاتي، ثم يتم إكمال الإثبات الصارم بواسطة وكيل رسمي في Lean. حققت V4 درجة 120/120 في مسابقة Putnam-2025، متساوية مع Axiom في المركز الأول، متفوقة على Seed-1.5-Prover الذي حصل على 110/120 وAristotle الذي حصل على 100/120. استخدم سيناريو الحدود توسعة حسابية واسعة النطاق، بينما تعكس نتائج السيناريو العملي قدرة النشر العادية بشكل أفضل. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت