من هو الأفضل في استخدام كود كلود؟ الجواب قد لا يكون المبرمجين

> العنوان الأصلي: الترميز الوكولي والعوائد المستمرة على الخبرة
> الكاتب الأصلي: Anthropoic
> الترجمة: Peggy
>

المقدمة: تستند هذه التقرير إلى حوالي 400,000 محادثة مع Claude Code، وتناقش كيف تغير أدوات البرمجة الذكية علاقة الإنسان بالكود.

أهم اكتشاف في المقال هو: في برمجة الوكيل، يحدد الإنسان بشكل رئيسي "ماذا يفعل"، بينما Claude مسؤول بشكل أساسي عن "كيف يفعل". يتحمل المستخدم معظم قرارات التخطيط، بينما Claude يتولى معظم عمليات التنفيذ. بمعنى آخر، تتولى الذكاء الاصطناعي الآن كتابة الكود، تعديل الملفات، تشغيل الأوامر، التصحيح، لكن تحديد الأهداف والحكم على النتائج لا يزالان يعتمدان على الإنسان.

الأهم من ذلك، أن تأثير استخدام Claude Code لا يعتمد فقط على ما إذا كان المستخدم مبرمجًا. تظهر التقارير أن معدلات النجاح في المهام التي تتطلب توليد الكود، سواء في المجالات القانونية، المالية، الإدارية، أو البحث العلمي، قد اقتربت من مهارات مهندسي البرمجيات. العامل الحقيقي الذي يؤثر على النتائج هو مدى فهم المستخدم للمشكلة التي يحلها.

وهذا يعني أن برمجة الذكاء الاصطناعي تخفض من حاجز التنفيذ، وليس من حاجز الحكم. في المستقبل، الأشخاص الذين يفهمون الأعمال، ويعرفون السياق، ويستطيعون تحديد المتطلبات والحكم على النتائج، قد يكونون أكثر قدرة على استخدام الذكاء الاصطناعي بشكل فعال من الأشخاص الذين يكتبون الكود فقط. الذكاء الاصطناعي لن يحل محل المعرفة الميدانية تلقائيًا، بل سيعزز قيمة المعرفة الميدانية.

وفيما يلي النص الأصلي:

الاكتشافات الرئيسية

بناءً على الدراسات السابقة، اقترحنا إطار عمل لدراسة برمجة الوكيل التفاعلي. يعتمد هذا الإطار على تحليل حماية الخصوصية لحوالي 400,000 محادثة مع Claude Code بين أكتوبر 2025 وأبريل 2026، لتقييم تكوين المهام، وأساليب التعاون بين الإنسان والذكاء الاصطناعي، ومعدلات النجاح.

في محادثة نموذجية، يكون الإنسان مسؤولًا عن معظم قرارات التخطيط، أي تحديد "ماذا يفعل"، بينما Claude مسؤول عن معظم عمليات التنفيذ، أي تحديد "كيف يتم ذلك". كلما زادت خبرة المستخدم في مجال معين، زاد حجم العمل الذي يطلبه Claude لإنجازه. في مهام الترميز، تكاد معدلات النجاح بين مختلف المهن الرئيسية، أي مدى إكمال المهمة كما كان يريد المستخدم، مع وجود أدلة قابلة للتحقق مثل الاختبارات، وإرسال الكود، تقترب من مهندسي البرمجيات.

كلما زادت خبرة المستخدم في المجال، زادت احتمالية نجاح المحادثة. ومع ذلك، فإن الفرق بين المستخدم المتوسط والخبير ليس كبيرًا. خلال الأشهر السبعة التي راقبناها، انخفضت نسبة المحادثات التي تتعلق بالتصحيح تقريبًا إلى النصف، وتحولت طرق الاستخدام نحو نمط أكثر شمولية: نشر وتشغيل الكود، تحليل البيانات، وكتابة المستندات غير البرمجية.

خلال هذه الفترة، زادت قيمة المهام النموذجية في جميع أنواع العمل تقريبًا. قُمنا بتقدير قيمة المهام استنادًا إلى تكاليفها في سوق العمل الحر، ووجدنا أن الزيادة كانت حوالي 25% في المتوسط.

مقدمة

تُعد برمجة الوكيل في تطور سريع. منذ نهاية 2025، تضاعف عدد المشاريع على GitHub التي تتضمن أنشطة برمجة الوكيل، ويستخدم مستخدمو Claude Code الآن حوالي 20 ساعة أسبوعيًا بشكل متوسط. هل يمكن لغير المبرمجين أن ينجحوا في توجيه وكيل لإنجاز مهام تقنية معقدة؟ وكيف ستؤثر سرعة اعتماد هذه الأدوات وتطور قدراتها على العمل المعرفي الأوسع؟ لا نملك إجابة كاملة بعد، لكن يمكننا ملاحظة بعض الإشارات المبكرة من بيانات استخدام Claude Code.

يعتمد هذا التقرير على تحليل حماية الخصوصية لحوالي 235,000 مستخدم، و400,000 محادثة تفاعلية بين أكتوبر 2025 وأبريل 2026، لتقديم أدلة على كيفية استخدام Claude Code في الواقع. استمرينا في دراسة مؤشرات الاستقلالية في محادثات Claude Code، وكيف يغير ذلك من طبيعة العمل داخل شركة Anthropoc. سنقترح إطارًا لوصف استخدام المساعد التفاعلي للذكاء الاصطناعي: ماذا يعمل الناس، من يقوم بهذه الأعمال، وهل تنجح؟ نركز على استخدام Claude Code عبر واجهة سطر الأوامر، أو عبر Claude.ai، أو تطبيق سطح المكتب. من خلال تتبع كيف يتغير نمط استخدام برمجة الوكيل مع تطور قدرات النموذج، يمكننا فهم تأثير هذه الأدوات على محترفي البرمجة وسوق العمل المعرفي.

ما يحدث على Claude Code قد يكون مؤشرًا على مستقبل العمل المعرفي: حيث يندمج الوكيل تدريجيًا في الأعمال غير البرمجية. نكتشف أن Claude يتعامل مع مهام أكثر تعقيدًا وقيمة. في الوقت نفسه، لا تزال هناك تقسيمات واضحة للعمل في برمجة الوكيل: الإنسان يحدد ما يُبنى، والوكيل يقرر كيف يُبنى.

كما نرى أدلة على أن المعرفة الميدانية، وليس مهارة البرمجة فقط، هي التي تعظم فاعلية الأدوات. خاصة، أن الخبراء الميدانيين ينجحون بسهولة أكبر، ويستطيعون التعافي من الأخطاء وسوء الفهم بشكل أسرع. ومع ذلك، فإن الفارق بين المستخدم المتوسط والخبير ليس كبيرًا. هذا يشير إلى أن امتلاك مهارة كافية في مجال معين يمكن أن يجعل الشخص فعالًا في استخدام هذه الأدوات تقريبًا كخبير عميق.

هذه الاكتشافات تتيح لنا ملاحظة التحولات المحتملة في سوق العمل. في بياناتنا، النجاح يعتمد على فهم الشخص للمشكلة التي يحلها، وليس على تدريبه البرمجي. إذا كانت هذه الأنماط صحيحة على مستوى الاقتصاد، فهي تعني أن أدوات برمجة الوكيل قد تستهلك بعض الأعمال التي تعتمد على التنفيذ، لكنها في المقابل تكافئ من يفهم حقًا المشكلة التي يعمل عليها. برمجة الوكيل ليست استبدالًا للمعرفة الميدانية، بل تعظيم لقيمتها، فكلما زاد فهم العامل للمجال، زادت جودة العمل الذي يمكن أن ينجزه الوكيل.

تقسيم العمل

ماذا يفعل الناس باستخدام Claude Code

لفهم كيفية استخدام الناس لـ Claude Code، قسمنا كل محادثة إلى واحدة من تسع أنماط عمل، وهي الأكثر تمثيلًا لهدف المحادثة. تتضمن أربعة أنماط مباشرة تتعلق بكتابة أو صيانة الكود: بناء شيء جديد، إصلاح شيء تالف، اختبار الكود، وتنظيم عمليات وكيل آخر أو خطوط إنتاج آلية. نمط آخر هو تشغيل البرامج، ويشمل النشر، التكوين، تشغيل خطوط الإنتاج، والمراقبة. هناك نمطان يركزان على فهم "ماذا يجب أن يُفعل": فهم كيفية عمل نظام موجود، والتخطيط للتغييرات قبل التنفيذ. وأخيرًا، نمطان غير مرتبطين بالكود أو يستخدمان الكود كمساعد: تحليل البيانات، والتواصل عبر العروض التقديمية أو المستندات النصية.

حوالي 56% من المحادثات تتعلق بكتابة الكود (25%)، إصلاح الكود (26%)، أو اختبار وتنظيم الكود (5%). تشغيل البرامج يمثل 17%، والتخطيط أو الاستكشاف 14%، وتحليل البيانات وكتابة النصوص 13% (انظر الشكل 1).

> الشكل 1: أنماط العمل التسع. كل محادثة تندرج تحت نمط واحد يصف هدفها بشكل أدق.

نقوم أولاً بتمرير سجل المحادثة عبر النموذج، ثم نستخدم أدوات تحليل حماية الخصوصية لمقارنة نتائج التصنيف مع البيانات المجمعة تلقائيًا، بما في ذلك التغييرات في الأسطر البرمجية. تظهر نتائج منسجمة جدًا بين المصدرين. على سبيل المثال، في المحادثات التي صنفناها على أنها إنشاء أو تعديل كود، أكثر من 90% منها تظهر تغييرات في الكود في البيانات المجمعة. التفاصيل في الملحق.

من يتخذ القرارات

ما مدى استقلالية Claude Code؟ تُظهر التقييمات أن قدراته عالية جدًا، وما زالت تتطور. على سبيل المثال، في اختبارات معيارية مثل METR، يمكن للنماذج المتقدمة الآن إنجاز مهام برمجية كانت تتطلب ساعات من الإنسان، وتجاوز العقبات بشكل مستقل. لكن، كيف يبدو الأمر في الاستخدام الحقيقي؟ هنا، نركز على مدى مساهمة الإنسان وClaude في توجيه العمل.

نبحث في الأمر من زاويتين: أولاً، إلى أي مدى يترك الناس القرارات لClaude؛ ثانيًا، كم من الإجراءات يُعطى لClaude. لبناء فهم لتقسيم القرارات، طورنا مصنفًا يعتمد على حماية الخصوصية، يصنف جميع القرارات في المحادثة إلى قرارات تخطيط وقرارات تنفيذ. يشمل ذلك تحديد "ماذا يفعل" و"كيف يُنفذ"، ويُعطى لكل قرار نسبة يُنسب إلى الإنسان أو إلى Claude. يُنتج المصنف رقمين: نسبة القرارات التخطيطية التي يتحملها الإنسان، ونسبة القرارات التنفيذية.

متوسطًا، يتخذ الإنسان حوالي 70% من قرارات التخطيط، و20% من قرارات التنفيذ (انظر الشكل 2). في الاستخدام الفعلي، يتضح أن تقسيم العمل واضح: الإنسان يحدد ما يُبنى، والوكيل يقرر كيف يُبنى.

لفهم مدى تفويض الإجراءات، لا ننظر إلى المحتوى، بل إلى بنية المحادثة. تتكون محادثة Claude من تفاعل بين Claude والمستخدم: يرسل المستخدم موجهات، ويقوم Claude بتنفيذ الأفعال؛ ثم يرسل المستخدم موجهًا جديدًا، وهكذا. في المحادثات النموذجية، يكون هناك حوالي أربع جولات. خلال الفترة من أكتوبر إلى أبريل، يرسل المستخدم في المتوسط حوالي 10 أوامر لكل موجه، وأحيانًا أكثر من 100. في كل جولة، يقرأ Claude الملفات، يعدل الكود، ينفذ الأوامر، ويخرج حوالي 2400 كلمة في المتوسط.

يعتمد مقدار العمل الذي ينجزه Claude بين فحصين للمستخدم بشكل كبير على من يتخذ القرارات. عندما يسيطر المستخدم على عملية التنفيذ، ويقوم بأكثر من 80% من قرارات التنفيذ، يكون عدد الأفعال التي ينفذها Claude أقل، حوالي 8. أما عندما يسيطر Claude على التخطيط، ويقوم بأكثر من 80% من قرارات التخطيط، يكون عدد الأفعال التي ينفذها أعلى، حوالي 16.

> الشكل 2: نسبة قرارات التخطيط والتنفيذ التي يتحملها Claude مقابل الإنسان. يُظهر هذا الشكل توزيع نسبة القرارات التي يُنسب فيها كل من الإنسان وClaude، في محادثات نموذجية، حيث يحدد المستخدم أن 70% من قرارات التخطيط و80% من قرارات التنفيذ يتحملها Claude.

المستوى المهني

بناءً على كل محادثة، يقيم Claude مستوى خبرة المستخدم بشكل تقريبي من 1 إلى 5، من المبتدئ إلى الخبير. يعتمد التصنيف على ثلاثة إشارات: مدى دقة أوامر المستخدم، ما يطلب من Claude التحقق منه، وما إذا كان المستخدم يصحح Claude أكثر من أن يصحح هو. من المهم أن نلاحظ أن هذا التصنيف يختلف تمامًا عن الوظيفة أو القدرة العامة، وهو مرتبط بالمهمة المحددة. فمثلاً، مهندس متمرس يسأل عن مشكلة في Rust، قد يكون مبتدئًا في هذا المجال، بينما محاسب لم يستخدم Python من قبل، إذا استطاع أن يوضح لClaude قواعد التحقق من التوازن في سكريبت Python، ويحدد الحالات التي قد يخطئ فيها، فهو خبير في تلك المهمة.

الجدول أدناه يوضح كيف نحدد مستويات الخبرة في المصنف، ويقدم أمثلة من مجموعة بيانات SWE-chat المفتوحة للمحادثات الذكية. المحادثات المصنفة على أنها "مبتدئ" تتضمن أوامر عامة بدون معرفة متخصصة، بينما تلك المصنفة على أنها "خبير" تعبر عن فهم عميق للمكتبات التقنية والبيئة.

> الجدول 1: مصنف مستويات الخبرة. تم إعادة صياغة، إخفاء هوية، وضغط أمثلة من محادثات حقيقية من مجموعة SWE-chat، وتم تصنيفها بواسطة مصنفنا. العديد من الأمثلة من البيانات المفتوحة لمحادثات برمجة الوكيل.

قمنا بقياس العلاقة بين مستوى الخبرة، والإنتاجية، وعدد الأفعال التي يثيرها كل موجه من Claude. في محادثة مبتدئة نموذجية، يثير كل موجه حوالي 5 أفعال، ويخرج حوالي 600 كلمة؛ أما في محادثة خبير، فإن طول سلسلة الأفعال يتجاوز ذلك بمقدار الضعف، حوالي 12 فعلًا، والإنتاجية تصل إلى حوالي 3200 كلمة، أي خمس أضعاف (انظر الشكل 3). الفارق بين المبتدئ والخبير يظهر في كل نوع عمل وكل مدى من قيمة المهمة.

هذه المقاييس تكمل دراساتنا السابقة عن استقلالية Claude Code. سابقًا، تتبعنا مدة تشغيل الوكيل، وتكرار الموافقة التلقائية على أفعاله. بالمقابل، تقيس مؤشراتنا على من يتخذ القرارات خلال المحادثة، بينما يقيس عدد الأفعال والنص الناتج مدى مدى استقلالية كل أمر بشري.

> الشكل 3: مع المستخدمين الأكثر خبرة، ينجز Claude المزيد من العمل لكل موجه. كلما ارتفع مستوى الخبرة، زاد عدد الأفعال (العمود الأيسر) والنص الناتج (العمود الأيمن). يُظهر الصندوق النطاق الربعي، والوسيط، والحدود القصوى. كل من الاتجاهين الإحصائيين ذو دلالة إحصائية (p < 0.001)، والفروق بين المستويات متباينة بشكل معنوي. بعد ضبط أنماط العمل، وقيمة المهمة، والأشهر، والمهنة، وسلسلة النموذج، وتصنيف المستخدم، لا تزال هذه الاتجاهات ذات دلالة: كل مستوى أعلى، يزداد عدد الأفعال بنسبة 9%، والنص بنسبة 13%.

من يستخدم Claude Code وماذا يفعلون به

المستخدمون

لفهم من يقوم بهذه الأعمال، استنتجنا مهن كل مستخدم من سجل المحادثات، وربطناها بتصنيف المهن الرئيسي في مكتب إحصاءات العمل الأمريكي (SOC) من بين 23 فئة. يُطلب من المصنف الاعتماد فقط على إشارات مثل سياق المشروع، أسماء الملفات، المراجع التي يستخدمها المستخدم، مثل المستندات القانونية، البيانات السريرية، التقارير المالية، مواد الدورات، وغيرها. يُطلب منه ألا يعتبر "كتابة الكود" دليلاً على مهنة برمجية. فقط عندما توجد إشارات واضحة على أن العمل يتعلق بالبرمجيات أو البيانات، يُصنف ضمن فئة "المهن الحاسوبية والرياضية". مثلاً، إذا كان محامي يكتب سكريبت للتحقق من العقود، فحتى لو كانت المحادثة تتعلق بالبرمجة، تُصنف كمهنة قانونية. إذا لم توجد إشارات على مهنة المستخدم، لا يُصنف.

تمكنّا من استنتاج مهنة في حوالي 70% من المحادثات. من بين تلك، كانت "المهن الحاسوبية والرياضية" أكبر مجموعة، وهو أمر متوقع، لأنها تشمل معظم الأعمال البرمجية. تليها الأعمال التجارية والمالية، والفنون والإعلام، والإدارة، وعلوم الحياة والفيزياء والعلوم الاجتماعية. من بين المجموعات غير البرمجية، كانت أسرع نموا هي الإدارة، والمبيعات، والمهن القانونية.

العمل

من أكتوبر 2025 إلى أبريل 2026، تغيرت بنية الأعمال التي يُنجزها الناس باستخدام Claude Code بشكل ملحوظ. أبرز التغيرات كانت انخفاض نسبة المحادثات التي تتعلق بإصلاح الكود التالف من 33% إلى 19% (انظر الشكل 4). مقابل ذلك، زادت الأعمال المرتبطة بالكود بشكل عام. تمثل عمليات تشغيل البرامج 21%، مقابل 14% سابقًا. زاد العمل في الكتابة وتحليل البيانات تقريبًا بمقدار الضعف، من حوالي 10% إلى 20%.

كما زادت قيمة المهام بشكل عام. قمنا بتقدير القيمة الاقتصادية لكل محادثة استنادًا إلى تكاليفها في سوق العمل الحر، مع معايرتها باستخدام بيانات وظائف حقيقية. وفقًا لهذا المقياس، ارتفعت القيمة المتوسطة للمحادثة بنسبة 27% بين أكتوبر وأبريل. وارتفعت قيمة المهام في أنواع العمل المختلفة، مثل البناء، التشغيل، والإصلاح، بنسبة 43%، 34%، و32% على التوالي. هذه التقديرات تقريبية، وتستخدم للمقارنة بين المهام عبر الزمن أكثر من كونها قيمة بالدولار الحقيقي. التفاصيل في الملحق.

> الشكل 4: تغير بنية وقيمة عمل Claude Code بين أكتوبر 2025 وأبريل 2026. يُظهر الشكل نسبة أنماط العمل المختلفة خلال سبعة أشهر. انخفضت نسبة المحادثات التي تتعلق بإصلاح الكود التالف من 33% إلى 19%، وارتفعت نسب تشغيل البرامج، تحليل البيانات، وكتابة المستندات.

النجاح يعتمد على ما يقدمه المستخدم

تقدير قيمة المهام هو وسيلة لفهم كيف يساعد Claude Code الناس على إنجاز أعمالهم. من ناحية أخرى، نراقب مدى نجاح المحادثات، وما هي خصائصها التي ترتبط بالنجاح. في جميع مؤشرات النجاح، نلاحظ نمطًا واضحًا: كلما زاد مستوى خبرة المستخدم، زادت احتمالية نجاح المحادثة. ومعظم التحسن يحدث بين المبتدئ والمتوسط، أي أن الفارق بين المبتدئ والمتوسط أكبر من الفارق بين المتوسط والخبير.

قبل تحليل خصائص المحادثات الناجحة، نحتاج إلى تحديد معنى النجاح بدقة. لا يمكننا ملاحظة النتائج الواقعية للمستخدمين، ولا يمكننا سؤالهم مباشرة عما إذا أنجزوا ما يريدون باستخدام Claude. لذلك، نعتمد على طريقتين مكملتين، تعتمدان على سجل المحادثة. الأولى، "تحديد النجاح"، حيث يقرأ المصنف كامل المحادثة ليقرر ما إذا كان المستخدم قد حقق هدفه، ويصنفها إلى ناجحة، جزئية، فاشلة، أو بدون هدف واضح. ثم يُقيم مصنفان مصاحبان مدى قوة الأدلة على النجاح، ويعطيان درجة من 1 إلى 5. أحدهما يبحث عن أدلة على النجاح، خاصة تلك التي تتطابق مع العمل، مثل الالتزامات في Git، الاختبارات التي تمر، أو تأكيد المستخدم. الثاني يقيم أدلة على الفشل، مثل الأخطاء، فشل الاختبارات، تكرار المحاولة، أو اعتراض المستخدم. النجاح الموثق يتطلب أن يكون هناك أدلة على النجاح، وألا يكون هناك أدلة على الفشل. نركز هنا على مدى نجاح أو فشل المحادثة، ونستبعد تلك التي تصنف على أنها "بدون هدف واضح"، والتي تمثل حوالي 7.7% من العينة.

مردود مستوى الخبرة

ما هي المحادثات الأسهل في النجاح؟ تظهر النتائج أن تصنيف مستوى الخبرة يؤثر بشكل كبير على النجاح.

قد يتساءل البعض: ربما أن الخبرة ليست العامل الحقيقي، وأن الخبراء يختارون مهامًا مختلفة، أو يختلفون في شيء آخر. في هذا القسم، نقارن بين محادثات من نفس نوع العمل، ونفس قيمة التقدير، ونفس الشهر، ونفس الموضوع، ومن نفس فئة المهنة، لنرى كيف يؤثر مستوى الخبرة على النتائج.

> الجدول 2: تعريف النجاح والفشل بناءً على المصنف. أمثلة من مجموعة SWE-chat الحقيقية، بعد إعادة الصياغة والإخفاء، وتم تصنيفها بواسطة مصنفنا.

في جميع مؤشرات النجاح، كلما زاد مستوى خبرة المستخدم، زادت احتمالية نجاح المحادثة. المحادثات المصنفة على أنها "مبتدئ" تحقق نجاحًا بنسبة 15% في "النجاح الموثق"، و77% على الأقل جزئيًا. أما تلك المصنفة على أنها "متوسط" أو أعلى، فمعدل النجاح الموثق يتراوح بين 28% و33%، والنجاح الجزئي بين 91% و92% (انظر الشكل 5).

في كل مؤشر، غالبية المكاسب تأتي من الانتقال من مبتدئ إلى متوسط؛ أما من متوسط إلى خبير، فإن المنحنى يتباطأ. التفاصيل الإحصائية وراء الشكل 5 موجودة في الملحق.

> الشكل 5: علاقة مستوى الخبرة بنتائج المحادثة. يُظهر الشكل نتائج المحادثة حسب تصنيف مستوى خبرة المستخدم، من مبتدئ إلى خبير، مع عرض نسب النجاح والفشل. يُظهر الشكل أن المحادثات التي تواجه مشاكل، أي تلك التي سجلت أكثر من 3 علامات فشل، تتبع نفس الاتجاه، مع زيادة احتمالية النجاح الموثق مع ارتفاع مستوى الخبرة. يُظهر أن الفرق بين المستويات ذات دلالة إحصائية، بعد ضبط أنماط العمل، وقيمة المهمة، والأشهر، والموضوع، ونوع المستخدم. يُستثنى من التحليل المحادثات التي تصنف على أنها "بدون هدف واضح".

حتى في المحادثات التي تواجه تحديات، يمكن ملاحظة تدرج مماثل. عندما يُسجل دليل فشل موثوق، نعتبر أن المحادثة "واجهت مشكلة". قد يشمل ذلك أخطاء، فشل الاختبارات، تكرار المحاولة، أو استياء المستخدم. في هذه المحادثات، بعد ضبط جميع المتغيرات، يرتفع معدل النجاح الموثق من 4% للمبتدئين إلى 15% للخبراء (انظر الشكل 5). باستخدام معايير أكثر تساهلاً، نجد أن نسبة النجاح الجزئي تتراوح بين 60% للمبتدئين و80-81% للمتوسط والخبراء.

كما نتابع علاقة عكسية بين مستوى الخبرة ومؤشرات الفشل. يُلاحظ أن المحادثات التي تُصنف على أنها فاشلة، هي تلك التي لم تحقق حتى النجاح الجزئي. إذا كانت المحادثة تواجه مشكلة، وتُصنف على أنها فاشلة، ولم تُكتب فيها أي سطر كود، نطلق عليها "تم التخلي عنها". في المحادثات التي يُعتقد أن المستخدم فيها مبتدئ، 19% منها تُخلى في النهاية، بينما في غيرهم تتراوح النسبة بين 5% و7%. بمعنى آخر، المستخدمون الأقل خبرة يتخلون بسهولة عندما يواجهون صعوبة في تحقيق هدفهم. جزء من قيمة الخبرة هو القدرة على توجيه الوكيل بشكل صحيح.

المهنة ليست أهم من مستوى الخبرة

معدلات النجاح الموثقة للمستخدمين في المهن البرمجية أو ذات الصلة حوالي 30%، بينما لغير المبرمجين حوالي 26%. في المحادثات التي تتضمن كتابة كود، أي إضافة أو تعديل سطر، تكون النسب 34% و29% على التوالي (انظر الشكل 6). باستخدام معايير أكثر تساهلاً، تقل الفجوة بين المهن، وتصل إلى 7 نقاط مئوية. في المحادثات التي تتضمن الكود، نسبة النجاح الجزئي تصل إلى 88-89%، والفارق بين المجموعتين صغير جدًا، ولم يتغير خلال الأشهر السبعة. في أكبر عشر مجموعات مهنية، الفارق مع مهندسي البرمجيات لا يتجاوز 7 نقاط مئوية. أعلى معدل نجاح موثوق به كان للمهن الإدارية، ربما لأنها تنقل مهارات الإدارة إلى توجيه الوكيل. لكن، قد يكون ذلك أيضًا بسبب طريقة القياس، التي تعتمد على تأكيد المستخدم الصريح، والذي قد يكون أكثر عُرفًا عند الإداريين.

> الشكل 6: نجاح المحادثات البرمجية حسب المهنة الموجهة، وفقًا للتصنيف المسبق. يُظهر أن جميع المجموعات، بما فيها "المهن الحاسوبية والرياضية"، تتقارب في نجاحها، مع فارق أقل من 7 نقاط مئوية، مع فئة "المهن الحاسوبية والرياضية". خطوط الخطأ تمثل فاصل الثقة 95% بناءً على حسابات مختلفة.

تطلعات مستقبلية

تُرسم في هذا التقرير صورة لمشهد يتشكل: برمجة الوكيل تعزز بعض المهارات والمعرفة، وتستبدل أخرى. في محادثات الكود، النجاح بين المهن الرئيسية لا يختلف كثيرًا عن المهن البرمجية، ويبدو أن برمجة الوكيل تقلل من أهمية وجود خلفية برمجية لتحقيق النجاح.

وفي الوقت نفسه، تظهر المحادثات الناجحة بشكل أكبر معرفة ميدانية. المحادثات التي يُصنف أصحابها على أنهم خبراء تحقق نجاحًا موثقًا أكثر من ضعف المبتدئين. وعندما تواجه المحادثة مشكلة، يكون معدل استسلام المبتدئين أعلى بكثير. طريقة التعاون نفسها توضح الصورة أكثر: الخبراء الميدانيون يمكنهم توجيه Claude لإنجاز المزيد من العمل مع كل أمر. لذلك، القدرة على توجيه Claude بنجاح تعتمد أكثر على فهم المجال، وليس على كتابة الكود. أي شخص يمتلك فهمًا عمليًا في مجال معين، يمكنه الآن إنجاز أعمال كانت سابقًا تتطلب خبرة عميقة. أما من يفتقر إلى هذا الفهم، فحتى مع نفس الأدوات، ستكون النتائج أقل بكثير. والأهم أن الفوائد تأتي من الكفاءة، وليس من التخصص العميق. فهم المجال بشكل عملي يكفي لتحقيق معظم الفوائد؛ التخصص العميق يضيف فقط فوائد إضافية قليلة.

هذه النتائج لا تزال أولية. كما هو الحال مع معظم دراساتنا، لا يمكننا قياس النتائج الواقعية، مثل مدى استخدام الكود بعد إنشائه، أو ما إذا كان قد أدى إلى نتائج اقتصادية. بالإضافة إلى ذلك، استبعدنا الاستخدام غير التفاعلي، الذي يمثل جزءًا كبيرًا من النشاط. بناء إطار لقياس هذا النوع من الاستخدام هو أحد أهداف المستقبل. وكل تصنيفاتنا تعتمد على قراءة النموذج للمحادثات. في الملحق، نعرض أن المصنف يتفق مع البيانات المستقلة في الاتجاه، ومع تقييم مرجعي قوي في معظم الحالات. لكن، في سيناريوهات واسعة النطاق، لا يزال التحقق من صحة المصنف تحديًا، خاصة أن محادثات Claude Code قد تكون طويلة ومعقدة، مما يصعب تصنيفها يدويًا.

مع استمرار تطور النماذج، وتغير أدوار المستخدمين، وتوزيع العمل بين الإنسان والآلة، ستتغير الصورة التي رسمناها هنا. نأمل أن تساعد هذه المقاييس في تتبع التحولات الكبرى: إذا بدأ مستوى الخبرة في التراجع، فذلك قد يدل على أن النماذج بدأت تقدم قرارات حاسمة، وأن الفوائد ستتوسع من الخبراء إلى جمهور أوسع. وإذا استمر نجاح غير المبرمجين في إنجاز محادثات برمجية، فربما يصبح إنتاج البرمجيات جزءًا من الأعمال العادية في مختلف المجالات، وليس حكرًا على مهنة واحدة. هذه التحولات ستؤثر على من يستفيد من برمجة الوكيل، ومدى استفادتهم، وستؤثر على القدرات الأكثر قيمة في سوق العمل.

[رابط النص الأصلي]


انقر لمعرفة المزيد عن فرص العمل في BlockBeats

مرحبًا بك في المجتمع الرسمي لBlockBeats:

قناة تيلجرام: https://t.me/theblockbeats

مجموعة تيلجرام: https://t.me/BlockBeats_App

حساب تويتر الرسمي: https://twitter.com/BlockBeatsAsia

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت