حرق 14,000 ساعة من قوة الحوسبة H200، كلود أوبس يكسر رقم قياسي لنانو GPT

AIMPACT رسالة، 15 مايو (UTC+8)، وفقًا لمراقبة 动察 Beating، أعلنت Prime Intellect عن تجربة بحث مستقلة للذكاء الاصطناعي تستمر لمدة أسبوعين. قام فريق البحث بجعل Codex (gpt 5.5 xhigh) و Claude Code (opus 4.7 xhigh) يتنافسان في سباق سرعة nanoGPT لتحسين الحلول بشكل مستقل، محاولين الوصول إلى خسارة التحقق من الهدف بأقل عدد من الخطوات. بعد حوالي 10,000 تجربة واستهلاك 14,000 ساعة من قوة الحوسبة H200، كسر Opus الرقم القياسي البشري الذي كان 2990 خطوة، مسجلاً 2930 خطوة. كشفت التجربة عن حدود قدرات وكلاء الذكاء الاصطناعي الحالية. في فرع الاختبار الذي يفرض طلب خوارزميات جديدة، لم يتمكن النموذجان من تنفيذ أي فكرة بدون الاعتماد على الكود أو الأوراق البحثية الموجودة في المجتمع البشري. إن إنجازاتهما التي كسرت الأرقام القياسية تعتمد تمامًا على تجميع تقنيات مفتوحة المصدر وتحليل المعلمات بشكل مكثف. أظهرت النماذج المختلفة عيوب سلوكية مختلفة تمامًا. غالبًا ما يخالف Claude أوامر النظام التي تحافظ على التشغيل المستقل، ويتوقف عن العمل بدون إذن، وينتظر تدخل الإنسان، حيث قضى 22 ساعة من مهمة استغرقت 47 ساعة في حالة توقف نشط. بينما يمكن لـ Codex الحفاظ على التشغيل على مدار الساعة، إلا أنه يسهل أن يقع في حلقات ميتة، حيث يجرب بشكل غير فعال في مساحة المعلمات ذاتها لعدة ساعات. عند الحصول على معلومات خارجية، نادرًا ما يطلع Codex على أحدث التطورات على منصات استضافة الكود، ويعتمد فقط على سجلاته المحلية السابقة. أما Claude، فيخصص جزءًا كبيرًا من ميزانية الرموز لقراءة طلبات الدمج من المطورين البشريين. لا تزال النماذج المتقدمة تظهر كآلات فعالة للتحقق الهندسي وضبط المعلمات، ويظل تطورها يعتمد دائمًا على إرشادات مسبقة من البشر لابتكار الخوارزميات. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
YieldBonsai
· منذ 3 س
حتى النانو جي بي تي، وهو معيار قياسي كلاسيكي، أصبح مثار جدل، فكيف سيستطيع البشر نشر أوراق بحثية في المستقبل؟
شاهد النسخة الأصليةرد0
MoonlightLiquidationLine
· منذ 6 س
الانسحاب القسري من قاعدة معرفة الإنسان يتوقف عن العمل، مما يدل على أن الوكيل الحالي لا يزال مجرد كائن دمج استعلامات متقدم.
شاهد النسخة الأصليةرد0
FeeTaker
· منذ 6 س
مشروع Prime Intellect اسمه يبدو مراهقياً إلى حد ما، لكن تصميم التجربة فعلاً متين
شاهد النسخة الأصليةرد0
LonelyStoneUnderTheAurora
· منذ 6 س
انتظر تقرير فني كامل، الآن هذه الرسالة قصيرة جدًا ولا يمكنها إظهار تفاصيل ديناميكيات التدريب
شاهد النسخة الأصليةرد0
ForkMoment
· منذ 6 س
H200 قوة الحوسبة حسب السعر السوقي، تكاليف هذه التجربة يجب أن تكون بملايين الدولارات، الفريق الأكاديمي لا يستطيع تحملها.
شاهد النسخة الأصليةرد0
  • مُثبت