أنثروبيك أطلقت أمر /goals لـ Claude Code، وتقسيم مهمة التنفيذ والحكم على إكمالها إلى نموذجين مستقلين، لأن السماح لنفس الذكاء الاصطناعي بالحكم على عمله يُعد تصميمًا معيبًا من الأساس.
(ملخص سابق: أعلن Claude Code عن زيادة حد استخدام التوكن الأسبوعي بنسبة 50%! لمدة شهرين، أنثروبيك تتنافس على بيئة المطورين)
(معلومات إضافية: إطلاق وظيفة التشغيل التلقائي لـ Claude Code: دعم ثلاث أنواع من المشغلات: الجدولة، API، أحداث GitHub)

قد تكون واجهت هذا الموقف من قبل: أن الذكاء الاصطناعي أنهى تصميم الكود، ورد عليك أن المهمة مكتملة. لكن بعد أيام تكتشف أن بعض الوحدات لم تُترجم أصلاً. المشكلة ليست في ضعف النموذج، بل في قراره بأنه “أنهى العمل”، رغم أنه لم يفعل ذلك حقًا.

لتحسين هذا الوضع، أطلقت أنثروبيك هذا الأسبوع أمر /goals جديد لـ Claude Code. المنطق بسيط: النموذج الذي ينفذ المهمة، والنموذج الذي يقيّم ما إذا كانت المهمة مكتملة، يجب أن يكونا شخصين مختلفين. لا يمكن لنفس النموذج أن يلعب الدورين، لأنه دائمًا سيكون أسوأ حكم على عمله.

كيف تحافظ على عمل Claude حتى يكتمل المهمة؟ يساعد Claude Code في ذلك بعدة طرق، منها واحدة أطلقناها مؤخرًا: /goal. pic.twitter.com/QtVPmwoKct

— ClaudeDevs (@ClaudeDevs) 13 مايو 2026

لماذا يتوقف وكيل الذكاء الاصطناعي عن العمل مبكرًا

عمل وكيل التشفير للذكاء الاصطناعي هو حلقة: قراءة الملفات، تنفيذ الأوامر، تعديل الكود، ثم تقييم ما إذا كانت المهمة مكتملة. المشكلة تكمن في الخطوة الأخيرة.

السياق المتراكم أثناء العملية: الخطوات التي أُنجزت، الطرق التي جُربت، الأخطاء التي تم تجاوزها… كلها تؤثر على تصور النموذج لتقدمه. يميل إلى اعتبار “لقد فعلت الكثير” مساويًا لـ “لقد أنجزت المهمة”. هذه المشكلة مكلفة في بيئة الشركات: إذا توقفت عملية نقل الكود أو اختبار الإصلاح قبل النهاية، غالبًا ما يُكتشف ذلك بعد أيام.

هناك بعض الحلول في الصناعة. تتيح OpenAI لنموذج الوكيل أن يقرر بنفسه متى يتوقف، مع السماح للمطورين بدمج مقيم خارجي. يدعم Google ADK تقييمًا مستقلًا عبر LoopAgent، ويدعم LangGraph نمطًا مشابهًا، لكن هذه الحلول تتشارك في أن: نقاط النقد (critic nodes) ومنطق التوقف يتطلبان تصميم المطور، والمنصة لا توفر إعدادات افتراضية.

أمر واحد، نموذجان

تصميم /goals يركز على فصل “التنفيذ” و"التقييم" بشكل رسمي إلى دورين مستقلين. يكتب المطور شروط الهدف، مثل:

/goal test/auth أن جميع الاختبارات في المجلد تمر، ونتائج فحص lint نظيفة

كلما حاول الوكيل إنهاء العمل، يتولى نموذج التقييم التحقق. النموذج الافتراضي للتقييم هو Claude Haiku (نموذج أخف من أنثروبيك). السبب بسيط: المقيم يحتاج فقط إلى حكم ثنائي: الشرط متحقق أم لا، ولا يحتاج إلى قدرات استنتاج كبيرة.

عندما لا يتحقق الشرط، يستمر الوكيل في العمل؛ وعندما يتحقق، يسجل نموذج التقييم النتيجة في سجل الحوار ويُمسح الهدف. تتم جميع العمليات داخل Claude Code، دون الحاجة إلى منصة مراقبة خارجية أو نظام سجلات مخصص.

ذكرت أنثروبيك أن شروط الهدف الفعالة عادةً تتطلب ثلاثة عناصر: حالة نهائية قابلة للقياس (نتائج الاختبار، رمز خروج البناء، عدد ملفات معين)، طريقة تحقق واضحة (مثل “npm test رمز الخروج 0”)، وقيود لا تتغير أثناء العملية (مثل “عدم تعديل ملفات اختبار أخرى”).

ANTHROPIC‎-1.67%

TOKEN‎-2.49%

IN‎-7.42%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.79M درجة الشعبية
#
CLARITYActPassesSenateCommittee
3.49M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.79K درجة الشعبية
#
#DailyPolymarketHotspot
951.49K درجة الشعبية
#
BitcoinVShapedReversalBack
226.99M درجة الشعبية

مُثبت

خريطة الموقع

أمر Claude Code الجديد /goals: فصل التنفيذ والتقييم، لتجنب تململ وكذب وكلاء الذكاء الاصطناعي

لماذا يتوقف وكيل الذكاء الاصطناعي عن العمل مبكرًا

أمر واحد، نموذجان

المواضيع الرائجة

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

مُثبت