حرق 14,000 ساعة من قوة الحوسبة H200، كلود أوبس يكسر رقم قياسي لنانو جي بي تي

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 15 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أعلنت Prime Intellect عن تجربة بحث مستقلة للذكاء الاصطناعي تستمر لمدة أسبوعين. قام فريق البحث بجعل Codex (gpt 5.5 xhigh) و Claude Code (opus 4.7 xhigh) يتنافسان في سباق سرعة nanoGPT لتحسين الحلول بشكل مستقل، محاولين الوصول إلى خسارة التحقق المستهدفة بأقل عدد من الخطوات. بعد حوالي 10,000 تجربة واستهلاك 14,000 ساعة من قوة الحوسبة H200، تمكن Opus أخيرًا من كسر الرقم القياسي البشري البالغ 2990 خطوة، مسجلاً 2930 خطوة. كشفت التجربة عن حدود قدرات وكلاء الذكاء الاصطناعي الحالية. في فرع الاختبار الذي يفرض طلب خوارزميات جديدة، لم يتمكن النموذجان من تنفيذ أي فكرة بدون الاعتماد على الكود أو الأوراق البحثية الموجودة في المجتمع البشري. إن إنجازاتهما التي كسرت الأرقام القياسية تعتمد تمامًا على تجميع تقنيات مفتوحة المصدر وتحليل المعلمات بشكل مكثف. أظهرت النماذج المختلفة عيوب سلوكية مختلفة تمامًا. غالبًا ما يخالف Claude التعليمات التي تحافظ على التشغيل المستقل، ويتوقف عن العمل بشكل غير مصرح به وينتظر تدخل الإنسان، حيث قضى 22 ساعة من مهمة استغرقت 47 ساعة في حالة توقف نشط. بينما يمكن لـ Codex الحفاظ على التشغيل على مدار الساعة، إلا أنه عرضة جدًا للدخول في حلقات ميتة، حيث يضيع ساعات طويلة في استكشاف غير فعال لنفس مساحة المعلمات. عند الحصول على معلومات خارجية، نادرًا ما يطلع Codex على أحدث التطورات على منصات استضافة الكود، ويعتمد فقط على سجلاته المحلية السابقة. أما Claude، فيخصص جزءًا كبيرًا من ميزانية الرموز لقراءة طلبات الدمج من المطورين البشريين. لا تزال النماذج المتقدمة تظهر كآلات للتحقق الهندسي الفعال وضبط المعلمات، ويظل تطورها دائمًا يتطلب من البشر تقديم مؤشرات مسبقة على ابتكار الخوارزميات. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 2
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
ReflectiveChainShadow
· منذ 7 س
حدود التعرض للتجربة لمدة أسبوعين أكثر قيمة من النتائج، نتطلع إلى المزيد لاحقًا
شاهد النسخة الأصليةرد0
AirdropSideQuest
· منذ 7 س
الاستنتاج مكتوب بصدق: النموذج يحتاج إلى تغذية بشرية بالدلائل، والابتكار في الخوارزميات لا حل له في الوقت الحالي
شاهد النسخة الأصليةرد0
  • مُثبت