الإطار يتفوق على النموذج في التنافس، ودرجة 76.4 التي حققها Qwenpaw فعلاً توضح أن إدارة الهندسة هي فعلاً العقبة الحقيقية لتطبيق الوكيل.

شاهد النسخة الأصلية
CoinNetwork
أعلنت علي عن معيار الوكيل الذكي PawBench: إطار عمل ممتاز يمكن أن يساعد النماذج الصغيرة على "التمرد"
أطلقت مختبرات ألي توينغي تجربة PawBench الإصدار 1.0، حيث تم دمج نموذج القاعدة وإطار التشغيل في تقييم واحد، شاملاً 9 نماذج رئيسية، وإجراء اختبارات متقاطعة على إطارات Hermes وOpenclaw وQwenpaw، بما في ذلك 150 مهمة و4050 وحدة اختبار. أظهرت النتائج أن تصميم الإطار يؤثر مباشرة على قدرة الوكيل على التنفيذ، حيث كانت نتائج Qwenpaw 76.4، وOpenclaw 75.4، وHermes 70.4. حتى النماذج الصغيرة حققت "التمرد" تحت إطار متميز. اقترحت التقييم أربع مبادئ: الإعلام الكافي، والتجهيز حسب الحاجة، والمراقبة النشطة، والاستعادة المرنة، مع التوصية باستخدام الإدارة الهندسية لإطلاق قدرات نموذج القاعدة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت