من هو الأفضل في استخدام كود كلود؟ الجواب قد لا يكون المبرمجين

> العنوان الأصلي: الترميز الوكولي والعوائد المستمرة على الخبرة
> الكاتب الأصلي: Anthropoic
> الترجمة: Peggy
>

المقدمة: تستند هذه التقرير إلى حوالي 400,000 محادثة مع Claude Code، وتناقش كيف تغير أدوات البرمجة الذكية علاقة الإنسان بالكود.

أهم اكتشاف في المقال هو: في برمجة الوكيل، يحدد الإنسان بشكل رئيسي "ماذا يفعل"، بينما Claude مسؤول بشكل أساسي عن "كيفية القيام به". يتحمل المستخدم معظم قرارات التخطيط، بينما يتولى Claude معظم أعمال التنفيذ. بمعنى آخر، تتولى الذكاء الاصطناعي الآن عمليات كتابة الكود، تعديل الملفات، تشغيل الأوامر، التصحيح وغيرها من مراحل التنفيذ، لكن تحديد الأهداف والحكم على النتائج لا يزال يعتمد على الإنسان.

الأهم من ذلك، أن تأثير استخدام Claude Code لا يعتمد فقط على ما إذا كان المستخدم مبرمجًا. تظهر التقارير أن معدل النجاح في المهام التي تتطلب توليد الكود، بين المستخدمين من المهن غير التقنية مثل القانون، التمويل، الإدارة، والبحث العلمي، قد اقترب من مهندسي البرمجيات. العامل الحقيقي الذي يؤثر على النتائج هو مدى فهم المستخدم للمشكلة التي يريد حلها.

وهذا يعني أن الذكاء الاصطناعي يخفض عتبة التنفيذ، وليس عتبة الحكم. في المستقبل، قد يكون الأشخاص الذين يفهمون الأعمال، ويعرفون السيناريوهات، ويستطيعون تحديد المتطلبات والحكم على النتائج، أكثر قدرة على استخدام الذكاء الاصطناعي بشكل جيد من الذين يكتبون الكود فقط. لن تحل أدوات البرمجة الذكية محل المعرفة الميدانية تلقائيًا، بل ستعزز قيمة المعرفة الميدانية.

وفيما يلي النص الأصلي:

الاكتشافات الرئيسية

استنادًا إلى الدراسات السابقة، اقترحنا إطار عمل لدراسة برمجة الوكيل التفاعلي. يعتمد هذا الإطار على تحليل حماية الخصوصية لحوالي 400,000 محادثة مع Claude Code بين أكتوبر 2025 وأبريل 2026، لتقييم تكوين المهام، وأساليب التعاون بين الإنسان والذكاء الاصطناعي، ومعدلات نجاح المهام.

في محادثة نموذجية، يكون الإنسان مسؤولاً عن معظم قرارات التخطيط، أي تحديد "ماذا يفعل"؛ بينما Claude مسؤول عن معظم قرارات التنفيذ، أي تحديد "كيف يتم ذلك". كلما كانت خبرة المستخدم في مجال معين أكبر، زاد حجم العمل الذي يطلب من Claude إنجازه عبر الأوامر. في مهام الترميز، تكاد معدلات النجاح بين مجموعات المهن الرئيسية، أي مدى إكمالها لما كان ينوي المستخدم القيام به، مع وجود أدلة قابلة للتحقق مثل الاختبارات، تقديم الكود، وغيرها، تقترب من مهندسي البرمجيات.

كلما كانت قدرة المستخدم على المجال أكبر، زادت احتمالية نجاح المحادثة. ومع ذلك، فإن الفارق بين المستخدم المتوسط والخبير ليس كبيرًا جدًا. خلال الأشهر السبعة التي راقبناها، انخفضت نسبة المحادثات التي تتعلق بالتصحيح تقريبًا إلى النصف، وتحولت طرق الاستخدام نحو نمط أكثر شمولية: نشر وتشغيل الكود، تحليل البيانات، وكتابة المستندات غير البرمجية.

خلال هذه الأشهر، زادت قيمة المهام النموذجية في جميع أنواع الأعمال تقريبًا. قُمنا بتقدير قيمة المهام من خلال مقارنة الأجور في سوق العمل الحر، ووجدنا أن الزيادة كانت حوالي 25% في المتوسط.

مقدمة

تتطور برمجة الوكيل بسرعة. منذ نهاية 2025، تضاعف معدل ظهور أنشطة الوكيل البرمجي في مشاريع GitHub، ويستخدم مستخدمو Claude Code الآن حوالي 20 ساعة أسبوعيًا بشكل متوسط. هل يمكن للأشخاص غير المبرمجين أن ينجحوا في توجيه وكيل لإنجاز مهام تقنية معقدة؟ وكيف ستؤثر سرعة اعتماد هذه الأدوات وتطور قدراتها على العمل المعرفي الأوسع؟ لا نملك إجابة كاملة بعد، لكن يمكننا ملاحظة بعض الإشارات المبكرة من بيانات استخدام Claude Code.

يعتمد هذا التقرير على تحليل حماية الخصوصية لحوالي 235,000 مستخدم، و400,000 محادثة تفاعلية بين أكتوبر 2025 وأبريل 2026، لتقديم أدلة على كيفية استخدام Claude Code عمليًا. استمرينا في دراسة مؤشرات الاستقلالية في محادثات Claude Code، وكيفية تغيير أدواته لطريقة عمل شركة Anthropic. سنقترح إطار عمل لوصف استخدام المساعد الذكي التفاعلي: ماذا يعمل الناس، من يقوم بهذه الأعمال، وهل تنجح؟ نركز على استخدام Claude Code عبر واجهة سطر الأوامر، أو عبر Claude.ai، أو تطبيق سطح المكتب. من خلال تتبع كيف يتغير نمط استخدام برمجة الوكيل مع تطور قدرات النموذج، يمكننا فهم تأثير هذه الأدوات على محترفي البرمجة وسوق العمل المعرفي بشكل أفضل.

ما يحدث على Claude Code قد يكون مؤشرًا على مستقبل العمل المعرفي: حيث ستُدمج الوكالات تدريجيًا في الأعمال غير البرمجية. نكتشف أن Claude يتعامل مع مهام أكثر تعقيدًا وقيمة. في الوقت نفسه، لا تزال هناك تقسيمات واضحة للعمل في برمجة الوكيل: الإنسان يحدد ما يُبنى، والوكيل يقرر كيف يُبنى.

كما نرى أدلة على أن العامل الحقيقي الذي يعزز فعالية الأدوات هو المعرفة الميدانية، وليس مهارة البرمجة فقط. خاصة، أن الخبراء الميدانيين ينجحون بسهولة أكبر، ويستطيعون التعافي من الأخطاء وسوء الفهم بشكل أسرع. ومع ذلك، فإن الفارق بين المستخدم المتوسط والخبير ليس كبيرًا جدًا. هذا يشير إلى أنه طالما أن الشخص يمتلك مهارة كافية في مجال معين، يمكنه استخدام هذه الأدوات بشكل فعال تقريبًا كخبير عميق.

هذه الاكتشافات تتيح لنا ملاحظة التحولات المحتملة في سوق العمل. تظهر بياناتنا أن النجاح يعتمد على فهم الشخص للمشكلة التي يريد حلها، وليس على تدريبه البرمجي فقط. إذا كانت هذه الأنماط صحيحة على مستوى الاقتصاد، فهذا يعني أن أدوات برمجة الوكيل قد تستهلك بعض الأعمال التي تعتمد على التنفيذ، لكنها في المقابل تكافئ من يفهم المشكلة التي يعمل عليها. برمجة الوكيل ليست بديلًا عن المعرفة الميدانية، بل إن فهم العامل للمشكلة يزيد من جودة العمل الذي يمكن أن ينجزه الوكيل.

تقسيم العمل

ما الذي يفعله الناس باستخدام Claude Code

لفهم كيفية استخدام الناس لـ Claude Code، قمنا بتصنيف كل محادثة إلى أحد تسعة أنماط عمل، وهو النشاط الذي يصف هدف المحادثة بشكل أدق. تتضمن أربعة أنماط مباشرة تتعلق بكتابة أو صيانة الكود: بناء شيء جديد، إصلاح شيء تالف، اختبار الكود، وتنظيم عمليات وكيل آخر أو خطوط إنتاج آلية. نوع آخر هو تشغيل البرمجيات، ويشمل النشر، التكوين، تشغيل خطوط الإنتاج، والمراقبة. وهناك نمطان يركزان على فهم "ماذا يجب أن يُفعل": فهم كيفية عمل نظام موجود، والتخطيط للتغييرات قبل التنفيذ. وأخيرًا، نمطان غير مرتبطين بالكود أو الكود هو جزء مساعد فقط من الناتج النهائي: تحليل البيانات، والتواصل عبر العروض التقديمية أو المستندات النصية الأخرى.

حوالي 56% من المحادثات تتكون من كتابة الكود (25%)، إصلاح الكود (26%)، أو اختبار وتنظيم الكود (5%). تشغيل البرمجيات يمثل 17%، والتخطيط أو الاستكشاف 14%، وتحليل البيانات أو كتابة النصوص 13% (انظر الشكل 1).

> الشكل 1: الأنماط التسعة للعمل. يتم تصنيف كل محادثة تفاعلية على أنها النمط الذي يصف هدفها بشكل أدق.

نبدأ بتمرير سجل المحادثة إلى النموذج، ثم نصنف كل محادثة بناءً على ذلك؛ بعدها نستخدم أداتنا لتحليل حماية الخصوصية لمقارنة النتائج مع البيانات المجمعة تلقائيًا، بما في ذلك ما إذا كانت هناك إضافة أو حذف لأسطر الكود. هناك توافق عالي بين المصدرين، فمثلاً، في المحادثات المصنفة على أنها إنشاء أو تعديل كود، تظهر أكثر من 90% من التغييرات في البيانات المجمعة. التفاصيل في الملحق.

من يتخذ القرارات

ما مدى استقلالية Claude Code؟ تظهر التقييمات أن قدراته عالية جدًا، وما زالت تتطور. على سبيل المثال، في اختبارات METR، يمكن للنماذج المتقدمة الآن إنجاز مهام برمجية كانت تتطلب ساعات من الإنسان، مع القدرة على التغلب على العقبات أثناء العملية. لكن، كيف يبدو الأمر في الاستخدام الحقيقي؟ هنا، نركز على مدى مساهمة الإنسان وClaude في توجيه العمل.

نبحث في الأمر من زاويتين. الأولى، إلى أي مدى يترك الناس القرارات لـ Claude؛ الثانية، كم من الأفعال يُنسب إلى Claude. لبناء فهم لتقسيم القرارات، أنشأنا مصنفًا يعتمد على تحليل محادثة لحساب نسبة القرارات التي يحددها الإنسان مقابل تلك التي يحددها Claude. يُطلب من المصنف تحديد جميع القرارات المهمة، وتقسيمها إلى قرارات تخطيط وقرارات تنفيذ. تشمل قرارات التخطيط: ماذا يُفعل، أي طريقة تُستخدم، وما يُعتبر إنجازًا؛ أما قرارات التنفيذ فهي: أي الملفات تُعدل، ماذا يُكتب من كود، بأي لغة، وأي أوامر تُشغل. ثم يُنسب كل قرار إلى Claude أو الإنسان، ويُعطى لكل محادثة رقمان: نسبة القرارات التخطيطية التي يتحملها الإنسان، ونسبة القرارات التنفيذية التي يتحملها.

بشكل متوسط، يتخذ الإنسان حوالي 70% من قرارات التخطيط، و20% من قرارات التنفيذ (انظر الشكل 2). في الاستخدام الفعلي، يتضح أن برمجة الوكيل تتبع تقسيم عمل واضح: الإنسان يحدد ما يُبنى، والوكيل يقرر كيف يُبنى.

لفهم مدى تفويض الأفعال في المحادثة، لا ننظر إلى المحتوى، بل إلى هيكل المحادثة. تتكون محادثة Claude من تفاعل بين Claude والمستخدم: يرسل المستخدم موجهًا، ويقوم Claude بتنفيذ إجراء؛ ثم يرسل المستخدم موجهًا آخر، وهكذا. في المحادثة النموذجية، يكون عدد هذه التكرارات حوالي أربعة. في بياناتنا من أكتوبر إلى أبريل، يرسل المستخدم موجهًا واحدًا، ويؤدي Claude حوالي 10 أفعال، وأحيانًا أكثر من 100. في كل جولة، يقرأ Claude الملفات، يعدل الكود، ينفذ الأوامر، ويخرج في المتوسط حوالي 2400 كلمة.

كمية العمل التي ينجزها Claude بين فحصين للمستخدم تعتمد بشكل كبير على من يتخذ القرارات. عندما يحتفظ المستخدم بالسيطرة على عملية التنفيذ، ويقوم بأكثر من 80% من قرارات التخطيط، يكون عدد الأفعال التي ينفذها Claude أقل، حوالي 8 أفعال في كل جولة. أما عندما يسيطر Claude على التخطيط، ويقوم بأكثر من 80% من قرارات التخطيط، يكون عدد الأفعال التي ينفذها أعلى، حوالي 16 فعلًا.

> الشكل 2: نسبة قرارات التخطيط والتنفيذ التي يتحملها Claude مقابل المستخدم. يُظهر هذا الشكل توزيع نسبة القرارات التي يعتقد أن Claude يتحملها مقابل تلك التي يتحملها المستخدم في محادثات مختلفة. في المحادثة النموذجية، يتخذ المستخدم حوالي 70% من قرارات التخطيط، و80% من قرارات التنفيذ.

المستوى المهني

وفقًا لكل سجل محادثة، يقيم Claude مستوى خبرة المستخدم الظاهر في المهمة على مقياس من خمس درجات، من المبتدئ إلى الخبير. يركز المصنف على ثلاثة إشارات: مدى دقة أوامر المستخدم، ما يطلب من Claude التحقق منه، وما إذا كان المستخدم يصحح Claude أكثر أو العكس. من المهم أن نلاحظ أن هذا المستوى المهني يختلف تمامًا عن الوظيفة أو القدرة العامة، وهو مرتبط بالمهمة المحددة. فمثلاً، مهندس متمرس يسأل عن مشكلة في Rust، يظل مبتدئًا في مهمة Rust؛ أو محاسب لم يستخدم Python من قبل، لكنه يستطيع أن يحدد بدقة القواعد التي يجب أن ينفذها سكربت Python، ويميز الحالات التي قد تتسبب في أخطاء عند إغلاق الحسابات في نهاية الشهر، فهو يعتبر خبيرًا في تلك المهمة.

يعرض الجدول أدناه كيف نحدد مستويات الخبرة في المصنف، ويقدم أمثلة من مجموعة بيانات SWE-chat المفتوحة للمحادثات الذكية. المحادثات المصنفة على أنها "مبتدئ" تتضمن أوامر عامة لا تظهر معرفة عميقة بالمجال، بينما المحادثات المصنفة على أنها "خبير" تنقل فهمًا متعمقًا لمكتبة الكود والبيئة التقنية.

> الجدول 1: مصنف المستوى المهني. تم إعادة صياغة، إخفاء الهوية، وضغط أمثلة من محادثات حقيقية من مجموعة بيانات SWE-chat، وتم تصنيفها بواسطة مصنفنا. العديد من الأمثلة من مجموعة البيانات المفتوحة للمحادثات الذكية.

قمنا بقياس العلاقة بين المستوى المهني، والإنتاجية التي يسببها كل موجه من Claude، وكمية النشاط. في المحادثات النموذجية للمبتدئ، يثير كل موجه حوالي 5 أفعال، ويخرج حوالي 600 كلمة؛ أما في محادثات الخبير، فإن طول سلسلة الأفعال يتجاوز ضعف ذلك، حوالي 12 فعلًا، والإنتاجية تصل إلى حوالي 3200 كلمة، أي خمس أضعاف (انظر الشكل 3). الفارق بين المبتدئ والخبير يظهر في كل نوع عمل وكل مدى من قيمة المهمة.

هذه المقاييس تكمل دراستنا السابقة عن استقلالية Claude Code. تتبع الدراسات السابقة مدة تشغيل الوكيل، وتكرار الموافقة التلقائية على أفعاله. بالمقابل، يقيس مصنفنا قرارات المحادثة الجوهرية، بينما يقيس عدد الأفعال والنصوص الناتجة عن كل موجه مدى مدى استقلالية Claude استجابة للأوامر البشرية.

> الشكل 3: مع المستخدمين الأكثر تخصصًا، ينجز Claude المزيد من العمل مع كل موجه. كلما ارتفع المستوى المهني، زاد عدد الأفعال (العمود الأيسر) والنصوص الناتجة (العمود الأيمن) لكل موجه. يُظهر الصندوق النطاق الربعي، ويقسم عند الوسيط. الخطوط الممتدة تمثل النطاق من الخمسة إلى التسعين percentile. النقاط البيضاء تمثل المتوسط الهندسي. كلا الاتجاهين الإيجابيين ذو دلالة إحصائية (p < 0.001)، والفروق بين المستويات المهنية المجاورة ذات دلالة إحصائية أيضًا. بعد ضبط أنماط العمل، وقيمة المهمة، والأشهر، والمهنة، وسلسلة النموذج، وتصحيح الخطأ باستخدام تجميع المستخدمين، لا تزال هذه الاتجاهات ذات دلالة: كلما ارتفع المستوى المهني، زاد عدد الأفعال بنسبة 9%، وزاد حجم النص بنسبة 13%.

من يستخدم Claude Code، وماذا يفعلون به

المستخدمون

لفهم من يقوم بهذه الأعمال، استنتجنا مهن كل مستخدم من خلال سجلات المحادثة، وربطناها بتصنيف المهن الرئيسي من نظام مكتب إحصاءات العمل الأمريكي (SOC) والذي يتضمن 23 فئة رئيسية. يُطلب من المصنف الاعتماد فقط على إشارات مثل سياق المشروع، أسماء الملفات، الهيكل، المراجع التي يستخدمها المستخدم (مثل المستندات القانونية، البيانات السريرية، التقارير المالية، مواد الدورات)، والكلمات المستخدمة. يُطلب منه عدم اعتبار "كتابة الكود" بحد ذاته دليلاً على أن المستخدم مبرمج. فقط عندما توجد إشارات واضحة على أن العمل يتطلب برمجة أو بيانات، يُصنف المحادثة ضمن فئة المهن المرتبطة بالبرمجة، وهي "المهن الحاسوبية والرياضية". على سبيل المثال، إذا قام محامٍ ببناء سكربت للتحقق تلقائيًا من نقص بعض البنود في العقود، فحتى لو كانت المحادثة تتعلق بكتابة الكود، تُصنف كمهنة قانونية. وإذا لم توجد إشارات على مهنة المستخدم، لا يتم تصنيف المحادثة.

تمكنا من استنتاج مهنة حوالي 70% من المحادثات. في تلك التي يمكن تصنيفها، كانت "المهن الحاسوبية والرياضية" أكبر مجموعة، وهو أمر متوقع لأنها تشمل معظم الأعمال البرمجية. تليها الأعمال التجارية والمالية، والفنون والإعلام، والإدارة، وعلوم الحياة، والعلوم الفيزيائية، والعلوم الاجتماعية. من بين المجموعات غير البرمجية، كانت أسرعها نموًا هي الإدارة، والمبيعات، والمهن القانونية.

الأعمال

شهدت الفترة من أكتوبر 2025 إلى أبريل 2026 تغيرات ملحوظة في تكوين الأعمال التي يُنجزها الناس باستخدام Claude Code. أبرزها، انخفضت نسبة المحادثات التي تتعلق بإصلاح الكود التالف من 33% إلى 19% (انظر الشكل 4). واستُبدلت بمزيد من الأعمال المرتبطة بالكود. ارتفعت نسبة تشغيل البرمجيات من 14% إلى 21%. وتضاعف تقريبًا العمل في الكتابة وتحليل البيانات، من حوالي 10% إلى حوالي 20%.

كما زادت قيمة المهام ذاتها. قمنا بتقدير القيمة الاقتصادية لكل محادثة من خلال مقارنة تكاليف العمل المماثل في سوق العمل الحر، مع معايرتها باستخدام بيانات الوظائف الحقيقية المنشورة. وفقًا لهذا المقياس، ارتفعت القيمة المتوسطة للمحادثات بنسبة 27% بين أكتوبر وأبريل. وارتفعت قيمة أنواع العمل المختلفة، حيث زادت بنسبة 43%، و34%، و32% على التوالي في البناء، التشغيل، والإصلاح. هذه التقديرات تقريبية، لذا نستخدمها بشكل أساسي لمقارنة الاتجاهات عبر الزمن، وليس كقيم دولار مباشرة. لمزيد من التفاصيل حول كيفية بناء مقياس قيمة المهام، انظر الملحق.

> الشكل 4: تغيّر تكوين وقيمة عمل Claude Code من أكتوبر 2025 إلى أبريل 2026. يُظهر الشكل نسبة أنماط العمل المختلفة خلال فترة السبعة أشهر. انخفضت نسبة المحادثات التي تتعلق بإصلاح الكود التالف من 33% إلى 19%، وارتفعت نسبة تشغيل البرمجيات، تحليل البيانات، وكتابة المستندات.

النجاح يعتمد على ما يقدمه المستخدم

تقدير قيمة المهام هو وسيلة لفهم كيف يساعد Claude Code الناس على إنجاز أعمالهم. من ناحية أخرى، نراقب مدى نجاح المحادثات، وما هي خصائصها التي ترتبط بالنجاح. في جميع مؤشرات النجاح، نلاحظ نمطًا واضحًا: كلما كان مستوى خبرة المستخدم أعلى، زادت احتمالية نجاح المحادثة. ومعظم التحسن يحدث بين المبتدئ والمتوسط، أي أن الفارق بين المبتدئ والمتوسط أكبر من الفارق بين المتوسط والخبير.

قبل تحليل خصائص المحادثات الناجحة، نحتاج إلى تعريف دقيق للنجاح. لا يمكننا ملاحظة النتائج في العالم الحقيقي، ولا يمكننا سؤال المستخدمين مباشرة عما إذا أنجزوا ما يريدون باستخدام Claude. لذلك، نعتمد على طريقتين تكميليتين، تعتمدان على سجلات المحادثة. الأولى، "تحديد النجاح"، حيث يقرأ المصنف كامل المحادثة ليقرر ما إذا كان المستخدم قد حقق هدفه، مع خيارات النجاح، النجاح الجزئي، الفشل، أو عدم وجود هدف واضح. ثم يُقيم مصنفان مصاحبان مدى قوة الأدلة على النجاح، لتأكيد "النجاح الموثق". يبحث مصنف أدلة النجاح عن أدلة قابلة للتحقق، مثل أنشطة git المرتبطة بالمهمة، مثل الالتزامات، طلبات السحب، اجتياز اختبارات الوحدة، أو إظهار موافقة المستخدم بوضوح. يُعطى لكل محادثة تقييم من 1 (لا إشارة) إلى 5 (عدة إشارات قوية). أما المصنف الآخر، فهو مصنف أدلة الفشل، الذي يقيم الأدلة على الأخطاء، فشل الاختبارات، المحاولات المتكررة، أو معارضة المستخدم للمخرجات. يتطلب النجاح الموثق أن يكون المحادثة ناجحة، وأن توجد على الأقل إشارة واحدة قوية للتحقق من النجاح. نركز في التحليل على مدى نجاح أو فشل المحادثة، ونستبعد تلك التي تصنف على أنها "لا هدف واضح"، والتي تمثل حوالي 7.7% من العينة.

مردود المستوى المهني

ما هي نوعية المحادثات التي تكون أكثر عرضة للنجاح؟ تظهر نتائجنا أن تقييم المستوى المهني يؤثر بشكل كبير على النجاح.

قد يتساءل البعض، أن مستوى الخبرة ليس العامل الحقيقي. ربما يختار الخبراء مهامًا مختلفة، أو يختلفون في شيء آخر. في هذا القسم، نقارن بين محادثات من نفس نوع العمل، ونفس قيمة التقدير، ونفس الشهر، ونفس الموضوع، ومن نفس فئة المهنة، لنرى كيف يؤثر المستوى المهني على النتائج.

> الجدول 2: تعريف النجاح والفشل بناءً على المصنف. أمثلة من مجموعة بيانات SWE-chat الحقيقية، بعد إعادة الصياغة والإخفاء، تم تصنيفها بواسطة مصنفنا. العديد من الأمثلة من مجموعة البيانات المفتوحة للمحادثات الذكية.

في جميع مؤشرات النجاح، كلما ارتفع مستوى خبرة المستخدم، زادت احتمالية نجاح المحادثة. المحادثات المصنفة على أنها "مبتدئ" تحقق نجاحًا موثقًا بنسبة 15%، و77% على الأقل نجاح جزئي. أما المحادثات المصنفة على أنها "متوسط" أو أعلى، فمعدل النجاح الموثق يتراوح بين 28% و33%، والنجاح الجزئي بين 91% و92% (انظر الشكل 5).

كل مؤشر يظهر أن معظم التحسن يحدث عند الانتقال من مبتدئ إلى متوسط؛ أما من متوسط إلى خبير، فإن المنحنى يتباطأ. تفاصيل التحليل الإحصائي وراء الشكل 5 موجودة في الملحق.

> الشكل 5: العلاقة بين المستوى المهني ونتائج المحادثة. يُظهر الشكل نتائج المحادثة وفقًا لتقييم مستوى خبرة المستخدم، من مبتدئ إلى خبير، عبر خمس فئات. يُعرض الشكل اليساري جميع المحادثات، بينما يركز الوسط واليمين على المحادثات التي واجهت مشاكل، أي أن إشارات الفشل أكبر من 3، وتُظهر النسب النهائية للنجاح والفشل. كل نقطة تمثل نسبة معدلة. نقارن فقط المحادثات ذات نمط عمل، وقيمة مهمة، وشهر، وموضوع، ونوع المستخدم (هل هو من المهن البرمجية)، لتقدير الفروق بين المستويات. تفاصيل التحليل الإحصائي في الملحق. الخطوط المائلة تمثل فترات الثقة 95%، وغالبًا غير مرئية بسبب حجم العينة الصغير. تم استبعاد المحادثات التي تصنف على أنها "لا هدف واضح".

حتى في المحادثات التي تواجه تحديات، نلاحظ تدرجًا مشابهًا. عندما يُسجل دليل فشل موثوق، نعتبر أن المحادثة "واجهت مشكلة". قد يشمل ذلك أخطاء، فشل الاختبارات، محاولات متكررة، أو استياء المستخدم. في المحادثات التي تواجه مشكلة، بعد ضبط جميع المتغيرات، يرتفع معدل النجاح الموثق من 4% للمبتدئين إلى 15% للخبراء (انظر الشكل 5). باستخدام معايير أكثر تساهلاً، نجد أن نسبة النجاح الجزئي تتراوح بين 60% للمبتدئين و80-81% للمتوسطين والخبراء.

كما نتابع علاقة عكسية بين المستوى المهني ومؤشرات الفشل المختلفة. يجب ملاحظة أن المحادثات المصنفة على أنها فاشلة هي تلك التي لم تصل حتى إلى النجاح الجزئي. إذا كانت المحادثة تواجه مشكلة وُصفت بالفشل، ولم تُكتب فيها أي سطر كود، نعتبرها "متروكة". في المحادثات التي يُعتقد أن المستخدم فيها مبتدئ، 19% منها تُترك في النهاية؛ بينما في مجموعات أخرى، تتراوح النسبة بين 5% و7%. بمعنى آخر، المستخدمون الأقل خبرة أكثر عرضة للتخلي عن الهدف عندما يواجهون صعوبة. جزء من قيمة الخبرة هو القدرة على توجيه الوكيل بشكل صحيح.

المهنة قد تكون أقل أهمية من المستوى المهني

معدل النجاح الموثق للمستخدمين من المهن البرمجية يقترب من 30%، بينما للمستخدمين من المهن الأخرى حوالي 26%. في المحادثات التي تتطلب توليد كود، أي إضافة أو تعديل سطر واحد على الأقل، تصل النسبتان إلى 34% و29% على التوالي (انظر الشكل 6). باستخدام معايير أكثر تساهلاً، تقل الفروق بين المجموعتين، وتصل إلى 88-89% للنجاح الجزئي. لم تتغير النسب بشكل كبير خلال الأشهر السبعة، رغم أن المعدلات الإجمالية ارتفعت. في أكبر عشر مجموعات مهنية، الفارق مع مهندسي البرمجيات لا يتجاوز سبع نقاط مئوية. أعلى معدل نجاح موثق كان للمهن الإدارية، ربما لأنها تتطلب مهارات إدارية يمكن نقلها إلى قيادة الوكيل. قد يعكس ذلك أيضًا أن قياس النجاح يعتمد على تأكيد المستخدم الصريح، والذي قد يكون أكثر شيوعًا لدى الإداريين.

> الشكل 6: نجاح المحادثات البرمجية حسب المهنة الموجهة، وفقًا للتصنيف. يُظهر الشكل نسبة النجاح في المحادثات التي تتطلب إضافة أو تعديل سطر كود، وفقًا للمهنة الموجهة، مع تصنيف النجاح الموثق. يُظهر الشكل أكبر عشر مجموعات مهنية. جميعها، بما فيها المهن الحاسوبية والرياضية (SOC)، تتقارب في النجاح بنسبة لا تتجاوز سبع نقاط مئوية. الخطوط المائلة تمثل فترات الثقة 95% بناءً على حسابات مختلفة.

تطلعات مستقبلية

تُرسم نتائج هذا التقرير صورة لمشهد يتشكل: برمجة الوكيل تعزز بعض المهارات والمعرفة، وتستبدل أخرى. في المحادثات التي تتعلق بتوليد الكود، لا تختلف معدلات النجاح بين المهن الرئيسية، وتبدو أن أدوات برمجة الوكيل تقلل من أهمية وجود خلفية برمجية للنجاح في المهام البرمجية.

وفي الوقت نفسه، تظهر المحادثات الناجحة بشكل أكبر خبرة ميدانية. المحادثات التي يُصنف أصحابها على أنهم خبراء تحقق نجاحًا موثقًا أكثر من ضعف معدل المبتدئ. وعندما تواجه المحادثة مشكلة، يكون معدل استسلام المبتدئين أعلى بكثير. يوضح نمط التعاون أن الخبراء الميدانيين يمكنهم توجيه Claude بشكل أكثر فاعلية عبر كل أمر. لذلك، القدرة على توجيه Claude بنجاح تعتمد أكثر على فهم المجال من مهارة كتابة الكود. أي شخص يمتلك فهمًا عمليًا لمجال معين، يمكنه إنجاز أعمال تقنية كانت سابقًا غير ممكنة. أما من يفتقر إلى هذا الفهم، فحتى مع نفس الأدوات، ستكون النتائج أقل بكثير. والأهم أن الفوائد تأتي من الكفاءة، وليس من التخصص العميق. فهم المجال بشكل عملي يكفي لتحقيق معظم الفوائد؛ أما التخصص العميق، فيضيف فقط فوائد إضافية قليلة.

هذه الاكتشافات لا تزال أولية. كما هو الحال مع معظم دراساتنا، لا يمكننا قياس النتائج في العالم الحقيقي، مثل مدى استخدام الكود الذي يُكتب لاحقًا، أو ما إذا كان يحقق قيمة اقتصادية. بالإضافة إلى ذلك، يستثني هذا التقرير الاستخدام غير التفاعلي، الذي يمثل جزءًا كبيرًا من النشاط. بناء إطار لقياس هذا النوع من الاستخدام هو أحد أهداف الأبحاث المستقبلية. وكل تصنيف من تصنيفات المحادثة يعتمد على قراءة النموذج للمحادثة، وملحقًا نعرض توافق المصنف مع بيانات قياس مستقلة، والذي غالبًا يتطابق مع تقييم مرجعي قوي. لكن، في سيناريوهات واسعة النطاق، لا يزال التحقق من صحة المصنف تحديًا، خاصة أن محادثات Claude Code قد تكون طويلة ومعقدة، مما يصعب تصنيفها يدويًا كمرجع.

مع استمرار تطور النماذج، وتغير أدوار المستخدمين، وتوزيع العمل بين الإنسان والآلة، ستتغير أيضًا الصورة التي رسمناها هنا. نأمل أن تساعد هذه المقاييس في تتبع التحولات الكبرى: إذا بدأ مستوى الخبرة في تقديم عوائد أقل، فذلك قد يدل على أن النموذج بدأ يقدم قرارات حاسمة، وأن الفوائد ستتوسع من الخبراء إلى جمهور أوسع. وإذا استمر نجاح غير المبرمجين في إتمام محادثات الترميز، فربما يصبح إنتاج البرمجيات جزءًا من الأعمال العادية في مختلف المجالات، وليس حكرًا على مهنة واحدة. ستؤثر هذه التحولات على من يستفيد من برمجة الوكيل، ومدى استفادتهم، وستغير القدرات الأكثر أهمية في سوق العمل.

[رابط النص الأصلي]

انقر لمعرفة المزيد عن وظائف BlockBeats

مرحبًا بك في المجتمع الرسمي ل律ود BlockBeats:

قناة التليجرام: https://t.me/theblockbeats

مجموعة التليجرام: https://t.me/BlockBeats_App

حساب تويتر الرسمي: https://twitter.com/BlockBeatsAsia

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت