نظرت إلى النتائج، النموذج الأفضل لا يزال بعيدًا جدًا عن الإنسان، فهدأت.

شاهد النسخة الأصلية
MeNews
فريق NUS يصدر معيار GameWorld، ويقيم وكلاء الذكاء الاصطناعي متعدد الأوضاع في 34 لعبة متصفح
فريق NUS أصدر معيار GameWorld، الذي يتضمن 34 لعبة متصفح و170 مهمة، مع مؤشرات قابلة للتحقق لتحقيق تقييم موضوعي. اختبار نوعين من واجهات الوكيل: واجهة استخدام الكمبيوتر المباشرة لأوامر لوحة المفاتيح والفأرة، ووكيل متعدد الوسائط العام الذي يعمل في الفضاء الدلالي. أظهرت التجارب على 18 مجموعة من النماذج-الواجهات أن حتى الأفضل أداءً لا يقترب من أداء البشر، وهناك تحديات تتعلق بالكمون في الوقت الحقيقي، وحساسية ذاكرة السياق، وفعالية الحركات. الورقة البحثية ذات الصلة والكود متاحان على HuggingFace وGitHub.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت