وفقًا للمراقبة التي أجرتها Dongcha Beating، أطلقت Google DeepMind زميل رياضيات ذكي اصطناعي، وهو منصة بحث تفاعلية للرياضياتيين تستخدم بنية متعددة الوكلاء. حقق النظام معدل دقة بنسبة 47.9٪ على أصعب معيار رياضي على مستوى البحث حاليًا، FrontierMath Tier 4 (حل 23 من أصل 48 مشكلة)، متجاوزًا مباشرة الرقم القياسي السابق البالغ 39.6٪ الذي وضعه GPT-5.5 Pro. لم يستخدم هذا النظام نموذج أساس من الجيل التالي، بل استعمل Gemini 3.1 Pro. النموذج نفسه حقق فقط 19٪ دقة على المستوى الرابع، ولكن مع إضافة إطار الوكيل، تضاعف أداؤه أكثر من مرة. زودت DeepMind النظام ببنية متعددة الطبقات: في المستوى الأعلى، يقوم ‘منسق المشروع’ بتقسيم مهام البحث إلى تدفقات عمل متعددة، والتي تُوزع بعد ذلك على وكلاء فرعيين مسؤولين عن استرجاع الأدبيات، والبرمجة، والتفكير المنطقي. يجب أن تخضع البراهين التي يتم توليدها لعملية مراجعة من قبل عدة ‘وكلاء مراجعة’ قبل أن يتم تقديمها. يُظهر هذا الهيكل المعقد أن القدرات التحسينية المستخرجة من خلال التنسيق يمكن أن تتجاوز تلك التي يتم الحصول عليها من ترقية النماذج في التفكير الرياضي من الطراز الأول. أُجريت الاختبارات العمياء بواسطة Epoch AI، ولمنع الغش، لم يرَ فريق DeepMind الأسئلة طوال العملية، مع السماح لكل سؤال بالعمل لمدة 48 ساعة. لم تتفوق النتائج فقط على قائمة المتصدرين، بل حلت أيضًا ثلاث مشاكل كانت قد أحرجت جميع النماذج سابقًا. على الرغم من أنها تُشار إليها كمساعد، إلا أنها تعمل بشكل أقرب إلى زميل مبدع. استخدمها خبير نظرية المجموعات مارك لاكانبي في بحث فعلي لحل فرضية عامة من دفتر Kourovka. ومن المثير للاهتمام أن الاستراتيجية الأولية التي اقترحها النظام تم تصنيفها على أنها ‘معيبة’ من قبل وكيله المراجِع الخاص به، لكن لاكانبي أدرك الفكرة الذكية المخفية داخل الاقتراح المرفوض، وملأ الفجوات بنفسه، وأكمل الدليل في النهاية. حاليًا، يتوفر زميل الرياضيات الاصطناعي فقط للاختبار الداخلي من قبل عدد محدود من الرياضياتيين.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.23M درجة الشعبية
#
BTCBreaks82000
47.78M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.07K درجة الشعبية
#
#DailyPolymarketHotspot
902.98K درجة الشعبية
#
CapitalFlowsBackToAltcoins
4.45M درجة الشعبية

تثبيت

خريطة الموقع

ديب مايند تطلق مساعد بحوث الذكاء الاصطناعي في الرياضيات: إطار عمل متعدد الوكلاء يتفوق على GPT-5.5 Pro ويحل مشاكل كانت غير قابلة للحل سابقًا

المواضيع الرائجة

GateSquareMayTradingShare

BTCBreaks82000

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

CapitalFlowsBackToAltcoins

تثبيت