العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
CFD
مشتقات CFD للأسهم الأمريكية
الأسهم الأمريكية
وصول إلى الأسهم الأمريكية وصناديق ETF الحقيقية
أسهم هونغ كونغ
تداول أسهم عالية الجودة مدرجة في هونغ كونغ
العقود الآجلة للأسهم
رافع مالية عالية، وتداول على مدار 24/7
الأسهم المُرمَّزة
مدعومة بأصول أسهم حقيقية
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
GUSD
سك GUSD للحصول على عوائد أصول العالم الحقيقي (RWA) للخزانة
أنشطة الأسهم
تداول الأسهم الرائجة واحصل على إنزالات جوية سخية
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
من هو الأفضل في استخدام كود كلود؟ الجواب قد لا يكون المبرمجين
المؤلف: Anthropoic؛ الترجمة: Peggy، حركة البلوكشين
تستند هذه التقرير إلى حوالي 400,000 محادثة مع Claude Code، وتناقش كيف تغير أدوات البرمجة بالذكاء الاصطناعي علاقة الإنسان بالكود.
النتيجة الأساسية هي: في برمجة الوكيل الذكي، يحدد الإنسان بشكل رئيسي «ماذا يفعل»، وClaude مسؤول بشكل رئيسي عن «كيف يفعل ذلك». يتحمل المستخدم معظم قرارات التخطيط، بينما يتولى Claude معظم عمليات التنفيذ. بمعنى آخر، يتولى الذكاء الاصطناعي الآن كتابة الكود، تعديل الملفات، تشغيل الأوامر، التصحيح، وغيرها من مراحل التنفيذ، لكن تحديد الأهداف والحكم على النتائج لا يزالان يعتمدان على الإنسان.
الأهم من ذلك، أن تأثير استخدام Claude Code لا يعتمد فقط على ما إذا كان المستخدم مبرمجًا. تظهر التقارير أن معدل النجاح في المهام التي تتطلب توليد الكود، بين المستخدمين من المهن غير التقنية مثل القانون، المالية، الإدارة، والبحث العلمي، قد اقترب من مهندسي البرمجيات. العامل الحقيقي الذي يؤثر على النتائج هو مدى فهم المستخدم للمشكلة التي يريد حلها.
هذا يعني أن برمجة الذكاء الاصطناعي تخفض من عتبة التنفيذ، وليس من عتبة الحكم. في المستقبل، الأشخاص الذين يفهمون الأعمال، ويعرفون السياق، ويستطيعون تحديد المتطلبات بوضوح، قد يكونون أكثر قدرة على استخدام الذكاء الاصطناعي بشكل فعال من أولئك الذين يكتبون الكود فقط. الذكاء الاصطناعي لن يحل محل المعرفة الميدانية تلقائيًا، بل سيعزز قيمة المعرفة الميدانية.
وفيما يلي النص الأصلي:
النتائج الرئيسية
استنادًا إلى الدراسات السابقة، اقترحنا إطار عمل لدراسة برمجة الوكيل التفاعلي الذكي. يعتمد هذا الإطار على تحليل حماية الخصوصية لحوالي 400,000 محادثة مع Claude Code بين أكتوبر 2025 وأبريل 2026، لتقييم تكوين المهام، وأساليب التعاون بين الإنسان والذكاء الاصطناعي، ومعدلات نجاح المهام.
في محادثة نموذجية، يكون الإنسان مسؤولًا عن معظم قرارات التخطيط، أي تحديد «ماذا يفعل»؛ بينما Claude مسؤول عن معظم قرارات التنفيذ، أي تحديد «كيف يتم ذلك». كلما كانت خبرة المستخدم في مجال معين أكبر، زاد حجم العمل الذي يطلبه Claude لإنجازه من خلال الأوامر. في مهام الترميز، تكاد معدلات النجاح بين المجموعات المهنية الرئيسية — أي مدى إكمالها لما كان ينوي المستخدم القيام به، مع وجود أدلة قابلة للتحقق مثل الاختبارات، تقديم الكود — تقترب من مستوى مهندسي البرمجيات.
كلما كانت قدرة المستخدم على المجال أكبر، زادت احتمالية نجاح المحادثة. ومع ذلك، فإن الفارق بين المستخدم المتوسط والخبير ليس كبيرًا جدًا. خلال الأشهر السبعة التي راقبناها، انخفضت نسبة المحادثات التي تستخدم في التصحيح تقريبًا إلى النصف، وتحولت طرق الاستخدام نحو نمط أكثر شمولية: نشر وتشغيل الكود، تحليل البيانات، وكتابة المستندات غير البرمجية.
خلال هذه الفترة، ارتفعت قيمة المهام النموذجية في جميع أنواع العمل تقريبًا. قُمنا بتقدير قيمة المهام من خلال مقارنة الأجور في سوق العمل الحر، ووجدنا أن الزيادة كانت حوالي 25% في المتوسط.
مقدمة
تتطور برمجة الوكيل بسرعة. منذ نهاية 2025، تضاعف عدد المشاريع التي تتضمن أنشطة وكيل برمجي في GitHub، ويستخدم مستخدمو Claude Code الآن حوالي 20 ساعة أسبوعيًا بشكل متوسط. هل يمكن للأشخاص غير المبرمجين أن ينجحوا في توجيه وكيل لإنجاز أعمال تقنية معقدة؟ وكيف ستؤثر سرعة اعتماد هذه الأدوات وتطور قدراتها على العمل المعرفي الأوسع؟ لا نملك إجابة كاملة بعد، لكن يمكننا ملاحظة بعض الإشارات المبكرة من بيانات استخدام Claude Code.
يعتمد هذا التقرير على تحليل حماية الخصوصية لحوالي 235,000 مستخدم، و400,000 محادثة تفاعلية بين أكتوبر 2025 وأبريل 2026، لتقديم أدلة على كيفية استخدام Claude Code في الواقع. استمرينا في دراسة مؤشرات الاستقلالية في محادثات Claude Code، وكيفية تغييرها لطرق العمل داخل شركة Anthropic. سنقترح إطار عمل لوصف استخدام المساعد الذكي التفاعلي: ماذا يعمل الناس، من يفعل ذلك، وهل ينجح العمل. نركز على استخدام Claude Code عبر واجهة سطر الأوامر، أو عبر Claude.ai، أو تطبيق سطح المكتب. من خلال تتبع كيف يتغير نمط استخدام برمجة الوكيل مع تطور قدرات النموذج، يمكننا فهم تأثير هذه الأدوات على محترفي البرمجة وسوق العمل المعرفي بشكل أوسع.
ما يحدث على Claude Code قد يكون مؤشرًا على مستقبل العمل المعرفي: حيث ستُدمج الوكالات تدريجيًا في الأعمال غير البرمجية. نكتشف أن Claude يتعامل مع مهام أكثر تعقيدًا وقيمة. في الوقت نفسه، لا تزال هناك تقسيمات واضحة للعمل في برمجة الوكيل: الإنسان يحدد ما يُبنى، والوكيل يقرر كيف يُبنى.
كما نرى أدلة على أن المعرفة الميدانية، وليس مهارة البرمجة فقط، هي التي تعزز فعالية الأدوات. خاصة، أن الخبراء الميدانيين ينجحون أكثر، ويستطيعون التعافي من الأخطاء وسوء الفهم بسهولة أكبر. ومع ذلك، فإن الفارق بين المستخدم المتوسط والخبير ليس كبيرًا جدًا. هذا يشير إلى أن امتلاك مهارة كافية في مجال معين يمكن أن يجعل الشخص فعالًا في استخدام هذه الأدوات تقريبًا كخبير عميق.
هذه النتائج تتيح لنا ملاحظة التحولات المحتملة في سوق العمل. في بياناتنا، النجاح يعتمد على فهم الشخص للمشكلة التي يريد حلها، وليس على تدريبه البرمجي. إذا كانت هذه الأنماط صحيحة على مستوى الاقتصاد، فهي تعني أن أدوات برمجة الوكيل، رغم أنها قد تستهلك بعض الأعمال التي تعتمد على التنفيذ، إلا أنها تكافئ من يفهم حقًا المشاكل التي يعمل عليها. برمجة الوكيل ليست استبدالًا للمعرفة الميدانية، بل تعظيم لقيمتها. كلما زاد فهم العامل للمجال، زادت جودة العمل الذي يمكن أن ينجزه الذكاء الاصطناعي.
تقسيم العمل
ماذا يفعل الناس باستخدام Claude Code
لفهم من يفعل ذلك، صنفنا كل محادثة إلى أحد تسعة أنماط عمل، وهو النشاط الذي يصف الهدف بشكل أدق. أربعة من هذه الأنماط تتعلق مباشرة بكتابة أو صيانة الكود: بناء شيء جديد، إصلاح شيء تالف، اختبار الكود، أو تنسيق وكيل آخر أو خط أنابيب تلقائي. نمط آخر هو تشغيل البرامج، ويشمل النشر، الإعداد، التشغيل، والمراقبة. هناك نمطان يركزان على فهم «ماذا يجب أن يُفعل»: فهم كيفية عمل نظام موجود، والتخطيط للتغييرات قبل التنفيذ. وأخيرًا، نمطان غير مرتبطين بالكود أو يستخدمان الكود كمساعد: تحليل البيانات، والتواصل عبر العروض التقديمية أو المستندات النصية.
حوالي 56% من المحادثات تتكون من كتابة الكود (25%)، إصلاح الكود (26%)، أو اختبار وتنظيم الكود (5%). تشغيل البرامج يشكل 17%، والتخطيط أو الاستكشاف 14%، وتحليل البيانات أو كتابة النصوص 13% (انظر الشكل 1).
> الشكل 1: الأنماط التسعة للعمل. كل محادثة تندرج تحت النمط الذي يصف هدفها بشكل أدق.
نبدأ بتمرير سجل المحادثة إلى النموذج، ثم نصنف كل محادثة بناءً على ذلك؛ بعدها نستخدم أدوات تحليل حماية الخصوصية لمقارنة نتائج التصنيف مع البيانات المجمعة عن قياسات الأداء عن بُعد، بما في ذلك ما إذا تم إضافة أو حذف أسطر من الكود. هناك توافق كبير بين المصدرين. على سبيل المثال، في المحادثات التي صنفناها على أنها إنشاء أو تعديل كود، أكثر من 90% منها تظهر تغييرات في الكود في بيانات القياس عن بُعد. التفاصيل في الملحق.
من يتخذ القرارات
ما مدى استقلالية Claude Code؟ تظهر التقييمات أن الحد الأقصى لقدراته مرتفع، وما زال في ارتفاع. على سبيل المثال، في اختبارات METR، الآن يمكن لنماذج متقدمة إنجاز مهام برمجية كانت تتطلب ساعات من الإنسان، مع القدرة على التغلب على العقبات ذاتيًا. لكن، كيف يبدو الأمر في الاستخدام الحقيقي؟ هنا نركز على مدى مساهمة الإنسان وClaude في توجيه العمل خلال المحادثة.
نبحث عن إجابة من خلال منظورين. الأول، مدى اعتماد الناس على Claude لاتخاذ القرارات؛ الثاني، كم من الأفعال يُعطى لـClaude. لبناء فهم لتقسيم القرارات، أنشأنا مصنفًا خاصًا يعتمد على محتوى المحادثة، يحدد جميع القرارات المهمة، ويقسمها إلى قرارات تخطيط وقرارات تنفيذ. تشمل قرارات التخطيط: ماذا يُفعل، أي طريقة تُستخدم، وما يُعتبر إنجازًا؛ أما قرارات التنفيذ فهي: أي الملفات تُعدل، ماذا يُكتب من كود، بأي لغة، وأي أوامر تُشغل. ثم يُنسب كل قرار إلى Claude أو المستخدم، ويُنتج المصنف رقمين: نسبة القرارات التخطيطية التي يتحملها المستخدم، ونسبة القرارات التنفيذية التي يتحملها المستخدم.
متوسطًا، يتخذ الإنسان حوالي 70% من قرارات التخطيط، و20% فقط من قرارات التنفيذ (انظر الشكل 2). في الاستخدام الفعلي، يتضح تقسيم واضح للعمل: الإنسان يحدد ما يُبنى، والوكيل يقرر كيف يُبنى.
لفهم مدى تفويض الأفعال في المحادثة، لا ننظر إلى المحتوى، بل إلى هيكلها. تتكون محادثة Claude من تفاعل بين Claude والمستخدم: يرسل المستخدم موجهات، ويقوم Claude بتنفيذ الأفعال؛ ثم يرسل المستخدم موجهًا جديدًا، وهكذا. في المحادثة النموذجية، يكون عدد التكرارات حوالي أربعة. في بياناتنا من أكتوبر إلى أبريل، عند كل موجه يرسله المستخدم، يُحفز Claude عادةً حوالي 10 أفعال، وأحيانًا أكثر من 100. في كل جولة، يقرأ Claude الملفات، يعدل الكود، ويشغل الأوامر، ويخرج في المتوسط حوالي 2400 كلمة.
كمية العمل التي ينجزها Claude بين فحصين للمستخدم تعتمد بشكل كبير على من يتخذ القرارات. عندما يحتفظ المستخدم بالسيطرة على عملية التنفيذ، ويقوم باتخاذ أكثر من 80% من قرارات التنفيذ، فإن Claude ينفذ أقل، حوالي 8 أفعال في كل جولة. أما عندما يسيطر Claude على التخطيط، ويقوم باتخاذ أكثر من 80% من قرارات التخطيط، فإن عدد الأفعال التي ينفذها يكون أعلى، حوالي 16 فعلًا.
> الشكل 2: نسبة Claude في قرارات التخطيط والتنفيذ. يُظهر هذا الشكل توزيع نسبة القرارات التي يُنسب فيها التخطيط والتنفيذ إلى Claude بدلاً من المستخدم في محادثات نموذجية. في المحادثة النموذجية، يتخذ المستخدم حوالي 70% من قرارات التخطيط، وClaude يسيطر على حوالي 80% من قرارات التنفيذ.
المستوى المهني
وفقًا لكل سجل محادثة، يُقيم Claude مستوى خبرة المستخدم الظاهر في المهمة على مقياس من خمس درجات، من المبتدئ إلى الخبير. يركز مصنف المستوى المهني على ثلاثة إشارات: مدى دقة أوامر المستخدم، ما يطلب المستخدم من Claude التحقق منه، وما إذا كان المستخدم يصحح Claude أكثر، أو العكس. من المهم ملاحظة أن هذا المستوى المهني يختلف تمامًا عن الوظيفة أو القدرة العامة، وهو مرتبط بالمهمة المحددة. فمثلاً، مهندس متمرس يسأل عن مشكلة في Rust، قد يكون مبتدئًا في هذا المجال، بينما محاسب لم يستخدم Python من قبل، إذا استطاع أن يوضح بدقة القواعد التي يجب أن ينفذها سكربت Python، ويحدد الحالات التي قد يخطئ فيها عند إغلاق الحسابات في نهاية الشهر، فهو خبير في تلك المهمة.
نوضح في الجدول التالي كيف نحدد مستويات الخبرة في المصنف، مع أمثلة من مجموعة بيانات SWE-chat المفتوحة للمحادثات الذكية. المحادثات المصنفة على أنها «مبتدئ» تتضمن أوامر عامة لا تظهر معرفة عميقة بالمجال، بينما المحادثات المصنفة على أنها «خبير» تظهر فهمًا متعمقًا للمكتبات التقنية والبيئة التقنية.
> الجدول 1: مصنف المستوى المهني. تم إعادة صياغة، إخفاء الهوية، وضغط أمثلة من محادثات حقيقية من مجموعة بيانات SWE-chat، وتم تصنيفها بواسطة مصنفنا. العديد من الأمثلة من مجموعة البيانات المفتوحة للمحادثات الذكية.
قمنا بقياس العلاقة بين المستوى المهني، والإنتاجية، وعدد الأفعال التي يطلقها Claude لكل موجه. في محادثة مبتدئة نموذجية، يُحفز كل موجه Claude على تنفيذ حوالي 5 أفعال، ويخرج حوالي 600 كلمة؛ أما في محادثة خبير، فإن طول سلسلة الأفعال يتجاوز ضعف الأول، حوالي 12 فعلًا، والإنتاجية تصل إلى حوالي 3200 كلمة، أي خمس أضعاف (انظر الشكل 3). الفارق بين المبتدئ والخبير يظهر في كل نوع من العمل وكل فئة من قيمة المهمة.
هذه المقاييس تكمل دراستنا السابقة عن استقلالية Claude Code. سابقًا، تتبعنا مدة تشغيل الوكيل، وتكرار الموافقة التلقائية على أفعاله. بالمقابل، تقيس مؤشرات تحديد القرارات من يتخذ القرارات الجوهرية خلال المحادثة، بينما عدد الأفعال والإنتاجية يُعبر عن مدى استقلالية Claude استجابةً للأوامر البشرية.
> الشكل 3: مع المستخدمين الأكثر احترافية، ينجز Claude المزيد من العمل لكل موجه. كلما ارتفع المستوى المهني، زاد عدد الأفعال (العمود الأيسر) والنص الناتج (العمود الأيمن) لكل موجه. يُظهر الصندوق الربعيات، ويُفصل عند الوسيط. الخطوط الممتدة تمثل النطاق من 5 إلى 95 بالمئة. النقاط البيضاء تمثل المتوسط الهندسي. كلا الاتجاهين الإيجابيين ذو دلالة إحصائية (p < 0.001)، والفروق بين المستويات المهنية المجاورة ذات دلالة إحصائية أيضًا. بعد ضبط أنماط العمل، وقيمة المهمة، والأشهر، والمهنة، وسلسلة النموذج، وتصحيح الخطأ باستخدام تجميع المستخدمين، لا تزال هذه الاتجاهات ذات دلالة: كلما ارتفع المستوى المهني درجة، زاد عدد الأفعال بنسبة 9%، وزاد حجم النص بنسبة 13%.
من يستخدم Claude Code، وماذا يفعلون به
المستخدمون
لفهم من يفعل ذلك، استنتجنا مهن كل مستخدم من خلال سجل المحادثة، وربطناها بـ 23 فئة مهنية رئيسية وفقًا لنظام تصنيف المهن الأمريكي (SOC). يُطلب من المصنف الاعتماد فقط على إشارات مثل سياق المشروع عند بداية المحادثة، أسماء الملفات، هيكلها، المراجع التي يستخدمها المستخدم، مثل المستندات القانونية، البيانات السريرية، التقارير المالية، مواد الدورات، والكلمات المستخدمة. يُطلب من المصنف عدم اعتبار «كتابة الكود» دليلاً على مهنة برمجية. فقط عندما توجد إشارات واضحة على أن العمل يتضمن برمجة أو بيانات، يُصنف المحادثة ضمن فئة مهنية برمجية، مثل «مهن الحاسوب والرياضيات». على سبيل المثال، إذا كتب محامٍ سكربت للتحقق تلقائيًا من بعض البنود في العقود، فحتى لو كانت المحادثة تتعلق بكتابة الكود، تُصنف كمهنة قانونية. إذا لم توجد إشارات على مهنة المستخدم، لا يتم التصنيف.
نستطيع استنتاج مهنة المستخدم في حوالي 70% من المحادثات. من بين هذه، أكبر مجموعة هي «مهن الحاسوب والرياضيات»، وهو أمر متوقع، لأنها تشمل معظم الأعمال البرمجية. تليها الأعمال التجارية والمالية، التصميم والإعلام، الإدارة، وعلوم الحياة والفيزياء والعلوم الاجتماعية. من بين المهن غير البرمجية، الأسرع نموًا هي الإدارة، المبيعات، والقانون.
نوع العمل
من أكتوبر 2025 إلى أبريل 2026، تغيرت بنية العمل التي يقوم بها الناس باستخدام Claude Code بشكل ملحوظ. التغير الأبرز هو انخفاض نسبة المحادثات التي تتعلق بإصلاح الكود التالف من 33% إلى 19% (انظر الشكل 4). واستبدلتها أعمال أكثر تركيزًا على الكود. نسبة تشغيل البرامج زادت من 14% إلى 21%. تحليل البيانات والكتابة تضاعف تقريبًا، من حوالي 10% إلى حوالي 20%.
كما أن قيمة المهام زادت. قُمنا بتقدير القيمة الاقتصادية لكل محادثة من خلال مقارنة تكاليف الأعمال المماثلة في سوق العمل الحر، مع تصحيح باستخدام بيانات الوظائف العامة الحقيقية. وفقًا لهذا المقياس، ارتفعت القيمة المتوسطة للمحادثات بنسبة 27% بين أكتوبر وأبريل. وظهرت هذه الزيادة في أنواع متعددة من الأعمال. زادت قيمة المهام من نوع بناء، تشغيل، وإصلاح الكود بنسبة تقريبًا 43%، 34%، و32% على التوالي. هذه التقديرات تقريبية، لذا نستخدمها بشكل رئيسي لمقارنة الاتجاهات عبر الزمن، وليس كقيم دولار مباشرة. لمزيد من التفاصيل حول كيفية بناء مقياس قيمة المهام، انظر الملحق.
> الشكل 4: تغيرات بنية وقيمة Claude Code بين أكتوبر 2025 وأبريل 2026. يُظهر الشكل نسبة أنماط العمل المختلفة خلال فترة سبعة أشهر. انخفاض في محادثات إصلاح الكود التالف من 33% إلى 19%، وزيادة في تشغيل البرامج، تحليل البيانات، وكتابة المستندات.
النجاح يعتمد على ما يقدمه المستخدم
تقدير قيمة المهام هو وسيلة لفهم كيف يساعد Claude Code الناس على إنجاز أعمالهم. من زاوية أخرى، نراقب مدى نجاح المحادثات، وما هي خصائصها التي ترتبط بالنجاح. في جميع مؤشرات النجاح، نلاحظ نمطًا واضحًا: كلما كان مستوى خبرة المستخدم أعلى، زادت احتمالية نجاح المحادثة. معظم التحسن يحدث من المبتدئ إلى المتوسط، أي أن الفارق بين المبتدئ والمتوسط أكبر من الفارق بين المتوسط والخبير.
قبل تحليل خصائص المحادثات الناجحة، نحتاج إلى تحديد دقيق لمفهوم النجاح. لا يمكننا ملاحظة النتائج في العالم الحقيقي، ولا يمكننا سؤال المستخدمين مباشرة عما إذا أنجزوا ما يريدون باستخدام Claude. لذلك، نعتمد على طريقتين تكميليتين، تعتمدان على سجل المحادثة. الأولى، «تحديد النجاح»، حيث يقرأ مصنف كامل سجل المحادثة ليقرر ما إذا كان المستخدم قد حقق هدفه، مع خيارات النجاح، النجاح الجزئي، الفشل، أو عدم وجود هدف واضح. ثم يُقيم مصنفان مصاحبان مدى قوة الأدلة على النجاح، لتأكيد «النجاح الموثق». يبحث مصنف أدلة النجاح عن أدلة قابلة للتحقق، خاصة أنشطة Git المرتبطة بالمهمة، مثل الالتزامات، طلبات السحب، اجتياز اختبارات الوحدة، وإشارات واضحة من المستخدم بالموافقة. يُعطى كل محادثة درجة من 1 (لا إشارة) إلى 5 (عدة إشارات قوية). أما المصنف الآخر، الخاص بأدلة الفشل، فيقيم أدلة الأخطاء، فشل الاختبارات، المحاولات المتكررة، أو معارضة المستخدم للمخرجات. النجاح الموثق يتطلب أن يُحكم على المحادثة بأنها ناجحة، وأن توجد على الأقل إشارة موثوقة واحدة. نركز في التحليل على مدى نجاح أو فشل المحادثة، ونستبعد تلك التي يُحكم عليها بأنها «لا هدف واضح»، والتي تمثل حوالي 7.7% من العينة.
عائد المستوى المهني
ما هي نوعية المحادثات التي تكون أكثر نجاحًا؟ تظهر النتائج أن تقييم المستوى المهني للمستخدم له تأثير كبير على النجاح.
قد يتساءل البعض، أن مستوى الخبرة ليس هو العامل الحقيقي. ربما يختار الخبراء مهامًا مختلفة، أو يختلفون في شيء آخر. في هذا القسم، نقارن بين محادثات من نفس نوع العمل، ونفس قيمة التقدير، ونفس الشهر، ونفس الموضوع، ومن نفس فئة المهنة، لنرى كيف يؤثر المستوى المهني على النتائج.
> الجدول 2: تعريف النجاح والفشل بواسطة المصنف. أمثلة من مجموعة بيانات SWE-chat الحقيقية، بعد إعادة الصياغة والإخفاء، تم تصنيفها بواسطة مصنفنا.
في جميع مؤشرات النجاح، كلما ارتفع مستوى خبرة المستخدم، زادت احتمالية نجاح المحادثة. المحادثات المصنفة على أنها «مبتدئ» تحقق نجاحًا موثقًا بنسبة 15%، و77% على الأقل نجاح جزئي. أما المحادثات المصنفة على أنها «متوسط» أو أعلى، فمعدل النجاح الموثق يتراوح بين 28% و33%، والنسبة التي تحقق نجاحًا جزئيًا تتراوح بين 91% و92% (انظر الشكل 5).
في كل مؤشر، غالبية المكاسب تأتي من الانتقال من مبتدئ إلى متوسط؛ أما من متوسط إلى خبير، فإن المنحنى يتباطأ. تفاصيل التحليل الإحصائي وراء الشكل 5 موجودة في الملحق.
> الشكل 5: العلاقة بين المستوى المهني ونتائج المحادثة. يُظهر هذا الشكل نتائج المحادثة وفقًا لتقييم مستوى خبرة المستخدم، من مبتدئ إلى خبير، عبر خمس درجات. يُعرض الشكل نتائج جميع المحادثات، والمحادثات التي واجهت مشكلة (أي أن إشارة الفشل أكبر من 3)، وتلك التي حققت نجاحًا أو فشلًا بمختلف التعريفات. كل نقطة تمثل نسبة معدلة. نقارن فقط المحادثات ذات نمط عمل، وقيمة مهمة، وشهر، وموضوع، ونوع المستخدم (هل هو من مهن البرمجيات)، لتقدير الفروق بين المستويات. تفاصيل الانحدار موجودة في الملحق. الخطوط الممتدة تمثل فترات الثقة، وغالبًا غير مرئية بسبب حجم العينة. استبعدنا المحادثات التي حُكم عليها بأنها «لا هدف واضح».
حتى في المحادثات التي تواجه تحديات، نلاحظ تدرجًا مشابهًا. عندما تُسجل أدلة فشل موثوقة، نعتبر أن المحادثة «واجهت مشكلة». قد يشمل ذلك أخطاء، فشل الاختبارات، محاولات متكررة، أو استياء المستخدم. في المحادثات التي تواجه مشكلة، بعد ضبط جميع المتغيرات، يرتفع معدل النجاح الموثق من 4% للمبتدئ إلى 15% للخبير (انظر الشكل 5). وإذا استخدمنا معايير أكثر تساهلاً، فإن نسبة النجاح الجزئي تصل إلى 60% للمبتدئين، و81% للمتوسطين والخبراء.
كما نتابع علاقة عكسية بين المستوى المهني ومؤشرات الفشل المختلفة. من المهم ملاحظة أن المحادثات التي تُحكم عليها بالفشل هي تلك التي لم تصل حتى إلى النجاح الجزئي. إذا كانت المحادثة تواجه مشكلة وتركها دون كتابة أي سطر كود، نعتبرها «متروكة». في المحادثات التي يُعتقد أنها من المبتدئين، 19% منها تُترك، بينما في المجموعات الأخرى، تتراوح النسبة بين 5% و7%. بمعنى آخر، المستخدمون الأقل خبرة أكثر عرضة للتخلي عن الهدف عندما يواجهون صعوبة. جزء من قيمة المهارة هو القدرة على توجيه الوكيل بشكل صحيح.
المهنة أقل أهمية من المستوى المهني
معدل النجاح الموثق للمستخدمين من المهن البرمجية حوالي 30%، ولغير المبرمجين حوالي 26%. في المحادثات التي تتضمن كودًا، أي على الأقل إضافة أو تعديل سطر، تكون النسب 34% و29% على التوالي (انظر الشكل 6). باستخدام معايير أكثر تساهلاً، تقل الفروق بين المجموعتين، وتصل إلى 88% و89% للنجاح الجزئي. الفارق البالغ 5% لا يتغير خلال الأشهر السبعة، رغم أن المعدلات ترتفع بشكل عام. في أكبر عشر مجموعات مهنية في البيانات، لا يتجاوز الفارق 7 نقاط مئوية. أعلى معدل نجاح موثق هو للمهن الإدارية، يليه المهن البرمجية. قد يعكس ذلك أن مهارات الإدارة يمكن أن تنتقل إلى قيادة الوكيل، أو أن قياس النجاح يعتمد على تأكيدات واضحة من المستخدم، والتي قد يكون الإداريون أكثر اعتادًا على التعبير عنها.
> الشكل 6: نجاح المحادثة وفقًا للمهنة المندركة، بناءً على التصنيف المسبق. يُظهر هذا الشكل نسبة النجاح وفقًا لتعريف النجاح الصارم، في المحادثات التي أُضيف أو أُعدّل فيها سطر واحد على الأقل، مقسمة حسب مهنة المستخدم. يُظهر أن جميع المجموعات، بما فيها مهن الحاسوب والرياضيات، لا تختلف عن مهندسي البرمجيات بأكثر من 7 نقاط مئوية. الخطوط تمثل فترات الثقة 95%، بناءً على حسابات مختلفة.
تطلعات مستقبلية
تُظهر نتائج هذا التقرير صورة تتشكل تدريجيًا: برمجة الوكيل تعزز بعض المعارف والمهارات، وتستبدل أخرى. في المحادثات التي تتعلق بالكود، معدلات النجاح بين المهن الرئيسية تتقارب مع مهنة البرمجيات، مما يوحي أن برمجة الوكيل تقلل من أهمية وجود خلفية برمجية للنجاح.
وفي الوقت نفسه، تظهر المحادثات الناجحة بشكل أكبر معرفة ميدانية. المحادثات التي يُصنف أصحابها على أنهم خبراء، تحقق نجاحًا موثقًا بمعدل يتجاوز ضعف المبتدئ. وعندما تواجه المحادثة مشكلة، فإن نسبة استسلام المبتدئين أعلى بكثير. طريقة التعاون هذه توضح أن الخبراء الميدانيين يمكنهم توجيه Claude بشكل أكثر فاعلية عبر كل أمر. لذلك، القدرة على توجيه Claude بنجاح تعتمد أكثر على فهم المجال، وليس على كتابة الكود. أي شخص يمتلك فهمًا عمليًا في مجال معين، يمكنه الآن إنجاز أعمال تقنية كانت سابقًا تتطلب خبرة عميقة. أما من يفتقر إلى هذا الفهم، فحتى مع نفس الأدوات، ستكون النتائج أقل بكثير. والأهم أن الفوائد تأتي من الكفاءة، وليس من التخصص العميق. فهم المجال بشكل عملي يكفي لتحقيق معظم الفوائد؛ والتخصص العميق يضيف فقط فوائد إضافية قليلة.
هذه النتائج لا تزال أولية. كما هو الحال مع معظم دراساتنا، لا يمكننا قياس النتائج في العالم الحقيقي، مثل مدى استخدام الكود الذي يُكتب في النهاية، أو ما إذا كان يحقق قيمة اقتصادية. بالإضافة إلى ذلك، فإن الاستخدام غير التفاعلي، الذي يمثل جزءًا كبيرًا من النشاط، لم يُدرَس هنا. بناء إطار لقياس هذا النوع من الاستخدام هو أحد أهداف الأبحاث المستقبلية. كما أن جميع تصنيفاتنا تعتمد على قراءة النموذج للمحادثة، وملحقًا نُظهر أن المصنف يتوافق مع بيانات قياس الأداء المستقلة، ومع ذلك، في سيناريوهات واسعة النطاق، لا يزال التحقق من صحة المصنف تحديًا، خاصة أن محادثات Claude Code قد تكون طويلة ومعقدة، مما يصعب الاعتماد على التصنيفات البشرية كمرجع حقيقي.
مع تطور النموذج، وتغير طريقة عمل المستخدمين، وتوزيع العمل بين الإنسان والذكاء الاصطناعي، ستستمر الصورة في التغير. نأمل أن تساعد هذه المقاييس في تتبع التحولات الكبرى: إذا بدأ العائد من المستوى المهني في الانخفاض، فذلك قد يدل على أن النموذج بدأ يقدم قرارات حاسمة للمستخدمين، وأن الفوائد ستتوسع من الخبراء إلى جمهور أوسع. وإذا استمر معدل نجاح المستخدمين من خارج مهنة البرمجيات في الارتفاع، فربما يعني ذلك أن إنتاج البرمجيات أصبح جزءًا من الأعمال العادية في مختلف المجالات، وليس حكرًا على مهنة واحدة. هذه التحولات ستؤثر على من يستفيد من برمجة الوكيل، ومدى استفادتهم، وستغير القدرات الأكثر قيمة في سوق العمل.