أنثروبي تصدر تحليلًا بعد الوفاة حول تدهور جودة كود كلاود: ثلاثة تغييرات في طبقة المنتج، وليست مشكلات في النموذج

وفقًا للمراقبة التي أجرتها شركة Beating، أكد فريق الهندسة في Anthropic أن تراجع جودة Claude Code الذي أبلغ عنه المستخدمون خلال الشهر الماضي ناتج عن ثلاثة تغييرات مستقلة على مستوى المنتج، تؤثر على Claude Code، وClaude Agent SDK، وClaude Cowork، بينما تظل واجهة برمجة التطبيقات والنماذج الأساسية غير متأثرة. تم إصلاح المشاكل الثلاثة في 7 و10 و20 أبريل، مع إصدار النسخة النهائية وهي v2.1.116. حدث التغيير الأول في 4 مارس، حيث قام الفريق بضبط قوة الاستنتاج الافتراضية لـClaude Code من عالية إلى متوسطة لتقليل التأخيرات الطويلة العرضية (UI التي تظهر مجمدة) تحت أحمال استنتاج عالية. أبلغ المستخدمون على نطاق واسع عن تراجع في الأداء، مما أدى إلى التراجع في 7 أبريل، مع تعيين الإعداد الافتراضي الحالي لـOpus 4.7 إلى xhigh والنماذج الأخرى إلى high. كانت المشكلة الثانية خطأً تم إدخاله في 26 مارس، مصممًا لمسح سجلات الاستنتاج القديمة بعد أن تكون الجلسة خاملة لأكثر من ساعة لتوفير تكاليف استعادة الجلسة. تسبب خلل في التنفيذ في تنفيذ المسح ليس مرة واحدة فقط، بل في كل جولة لاحقة، مما أدى إلى فقدان النموذج تدريجيًا للسياق السابق للاستنتاج، مما نتج عنه النسيان، وتكرار الأفعال، واستدعاءات أدوات غير طبيعية. كما سرع هذا الخطأ من استهلاك حصة المستخدم بسبب فشل التخزين المؤقت في كل طلب. ذكر الفريق أن تجربتين داخليتين غير مرتبطتين أعاقتا ظروف إعادة إنتاج المشكلة، واستغرقت أكثر من أسبوع للتحقيق، مع تنفيذ إصلاح في 10 أبريل. كشفت مراجعة الكود اللاحقة باستخدام Opus 4.7 على طلب السحب المثير للمشكلة أن Opus 4.7 يمكنه اكتشاف هذا الخطأ، بينما لم يتمكن Opus 4.6 من ذلك. التغيير الثالث تم إطلاقه في 16 أبريل مع Opus 4.7، حيث أضاف الفريق توجيهًا لتقييد طول المخرجات في موجه النظام: “يجب ألا يتجاوز النص بين استدعاءات الأدوات 25 كلمة، ويجب ألا يتجاوز الرد النهائي 100 كلمة إلا إذا تطلب المهمة مزيدًا من التفاصيل.” أظهرت الاختبارات الداخلية عدم وجود تراجع لعدة أسابيع، ولكن بعد الإطلاق، تضافرت مع مطالبات أخرى لتدهور جودة الترميز، مما أثر على Sonnet 4.6، وOpus 4.6، وOpus 4.7. أظهرت التقييمات الموسعة انخفاضًا بنسبة 3% في كل من Opus 4.6 و4.7، مما أدى إلى التراجع في 20 أبريل. أثرت التغييرات الثلاثة على مجموعات مختلفة من المستخدمين وبدأت سارية في أوقات مختلفة، مما عرض تدهورًا واسعًا ومتفاوتًا في الجودة، مما زاد من تعقيد استكشاف الأخطاء وإصلاحها. ذكرت شركة Anthropic أنه من الآن فصاعدًا، ستتطلب من المزيد من الموظفين الداخليين استخدام نفس إصدارات البناء العامة التي يستخدمها المستخدمون، وتشغيل مجموعات تقييم كاملة للنموذج لكل تعديل على موجه النظام، وتحديد فترة رمادية. وكتعويض، قامت Anthropic بإعادة تعيين حصص الاستخدام لجميع المستخدمين المشتركين.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت