العملاقان جوجل يواجهان وضعًا صعبًا ويتجاوزان، وTERMS-Bench يحول مفاوضات الذكاء الاصطناعي إلى اختبار ضغط الإفلاس

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أصدر فريق إيريكا تشانغ من ستانفورد مجموعة اختبار التفاوض الاقتصادي TERMS-Bench. لقد أزالوا “الحكم على النماذج الكبيرة” كصندوق أسود، مما سمح للمقيمين برؤية واضحة تمامًا ما إذا كانت النماذج تخسر في العروض، أو التنازلات، أو الانتهاكات. في الاختبارات العادية، حصل كل من Claude Opus 4.6 و智谱 GLM 5.1 على المركزين الأول والثاني. وجد البحث أن كلاهما يتبع استراتيجية “عالية السعر، وعدم التنازل أبدًا” الصارمة، والتي يمكنها استنزاف الخصم في جولات الربح المربحة. لكن في أصعب المستويات ذات هامش الربح الضيق، تؤدي هذه الاستراتيجية الصارمة إلى خسائر بسبب تكرار فشل التفاوض. هنا، انقلبت النتائج مباشرة: تفوقت نماذج Gemma 4 31B (نموذج مفتوح الوزن) وGemini 3.1 Pro، اللذان يفهمان التنازلات المعتدلة للحفاظ على الطلب، وتجاوزتا المركزين الأول والثاني؛ بينما تراجع Claude السابق في الصدارة إلى المركز الخامس، وGLM إلى المركز التاسع. بالإضافة إلى اختبار الحد الأقصى للصعوبة، فإن المعيار الأكثر تأثيرًا هو اختبار قدرة البقاء على قيد الحياة في وضع Bankroll (صندوق التمويل). يتم تمديد التفاوض لمرة واحدة إلى سلسلة من الشراء المستمر: كل وكيل يبدأ بـ 100 دولار ويخوض 50 جولة، مع خصم ثابت على كل جولة لتكاليف التشغيل، وإذا نفد المال، يُعلن الإفلاس. هنا، أي خطأ بسيط في التفاوض يمكن أن يتراكم ويؤدي إلى أزمة الإفلاس. أظهرت النتائج أن نماذج GLM 5.1 وClaude Opus 4.6 وGoogle الثنائي، رغم اختلاف استراتيجياتها، كانت تتفوق في السيطرة على السوق، ونجحت جميعها في البقاء على قيد الحياة بنسبة 100%، ووصلت السيولة النهائية إلى 380 إلى 443 دولارًا. بالمقابل، لم تستطع Grok 4.20 وGPT-4o-mini تحمل خسائر التدفق النقدي، حيث بلغت معدلات الإفلاس 25% و50% على التوالي. المفتاح في TERMS-Bench ليس معدل النجاح في إتمام الصفقات، بل في تحويل أخطاء التفاوض إلى خسائر نقدية ومخاطر الإفلاس. القدرة على إقناع الخصم هي مجرد الطبقة الأولى؛ أما في التداول المستمر، فالحفاظ على الأرباح والتدفق النقدي هو ما يميز النماذج حقًا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت