Harness كسر الحواجز: خارج النموذج، التربة الصالحة للتطبيق تصبح "المعيار الأول" لاختيار شركات الذكاء الاصطناعي

MaticHoleFiller

2026-04-04 02:06:15

المقال | رائد الأعمال دُدُو

التحرير | بيييه

من منظور الاتجاهات الحالية، يبدو أن Harness أقرب إلى “طبقة وسطية لا رجعة فيها”.

تمامًا كما يعمل نظام التشغيل بالنسبة للأجهزة، وكما تعمل قواعد البيانات بالنسبة للتطبيقات، فإن Harness أصبحت تصبح تلك الطبقة “الواجهة” بين الذكاء الاصطناعي والعالم الواقعي. عندما ينتقل الذكاء الاصطناعي من “القدرة على التحدث” إلى “القدرة على إنجاز العمل”، فإن Harness هي الحبل/زمام الذي يحدد إلى أي مدى يمكن له أن يركض.

في عام 2026، دخل سوق الذكاء الاصطناعي المؤسسي العالمي بالفعل بهدوء إلى “منطقة المياه العميقة”.

خلال السنوات الثلاث الماضية، قفزت قدرات نماذج اللغات الكبيرة بوتيرة شبيهة بالانفلات من السيطرة، من مساعدين للحوار إلى توليد الكود، ومن إنتاج المحتوى إلى الاستدلال المعقد؛ وتمت إعادة ضبط “السقف المعرفي” للجزء المتعلق بالقدرة الذهنية للنماذج باستمرار. واليوم، أصبحت النماذج العامة الكبيرة مثل البنية التحتية الأساسية تمامًا، مثل الكهرباء ومياه الحنفية.

لكن هذا لم يَجعل الشركات مرتاحة. تظهر حقيقة تتناقض بوضوح مع التقدم التقني: كلما أصبح الذكاء الاصطناعي أقوى، كلما وجدت الشركات أنه أصعب في الاستخدام، وأشد خوفًا من استخدامه. تُظهر دراسة بعنوان “حالة الذكاء الاصطناعي لدى الشركات في 2026” الصادرة عن Deloitte أن 80% من الشركات التي شملها الاستطلاع تدّعي أنها قامت بنشر أدوات ذكاء اصطناعي، لكن الشركات التي تستطيع فعلًا تحقيق تطبيق على نطاق واسع وتوليد قيمة تجارية ملحوظة لا تمثل سوى 15%.

وفيما كان القطاع يتيه في الحيرة، تغير اتجاه الريح.

خلال شهر يناير 2026، في داخل OpenAl، تمكن فريق هندسي ابتدأ من 3 مهندسين فقط—من مستودع Git فارغ—من بناء منتج Beta كامل يحتوي على أكثر من مليون سطر كود خلال 5 أشهر. طوال العملية، لم يتم إدخال سطر كود واحد يدويًا من قبل الإنسان. ومن الجدير بالذكر أن هذا الفريق توسّع لاحقًا ليصبح 7 أشخاص؛ وخلال تلك الفترة تم دمج حوالي 1500 طلب سحب (Pull Request)، بحيث تمكن كل مهندس من الدفع بمعدل 3.5 PR يوميًا. ومع نضج العملية، استمرت كفاءة الإنتاج في التحسن. تَقدّر OpenAI أن هذا الأسلوب يوفر نحو 10 أضعاف الوقت مقارنة بتطوير الكود يدويًا بالطريقة التقليدية.

ليس هذا مجرد تحسن في الكفاءة، بل هو انقلاب في تعريف “هندسة البرمجيات” نفسها. وقد سمّت OpenAI هذه المنهجية الجديدة اسمًا: “هندسة التحكم/التحكم بالهندسة” (Harness Engineering).

وأحدث هذا التحول صدى سريعًا في أوساط قادة التكنولوجيا. من LangChain إلى OpenAI، وصولًا إلى Anthropic، قامت مجموعة من أبرز اللاعبين التقنيين—بشكل غير متوقع—بتغيير مركز ثقلها من “قدرات النموذج” إلى “هندسة الأنظمة”، ومع الوقت بدأت بالتقارب نحو صيغة توافق جديدة: Agent = Model + Harness.

في هذا السياق، ظهرت أيضًا بعض الأسئلة: هل Harness مجرد “حل انتقالي” قبل نضج نماذج اللغات الكبيرة، أم أنها في طريقها لأن تصبح الخطوة الأولى التي تتم عبرها عملية تطبيق الذكاء الاصطناعي داخل الشركات؟

أولًا: غير ذكي وغير قابل للتحكم: القطاع يبحث عن “زمام” لـ Agent

لماذا يراهن جميع رواد الصناعة على Harness؟

أولًا، انظر إلى مجموعة من بيانات الاستطلاع الصادرة عن Gartner. تُظهر البيانات أن من بين مشاريع الذكاء الاصطناعي للشركات عالميًا، لا يتجاوز 15% منها ما يحقق فعليًا تطبيقًا على نطاق واسع في الواقع التجاري؛ وفي المقابل، تم إدراج “عدم كفاية الاستقرار للـ Agents في المهام المعقدة” كأكبر عائق أول في طريق التنفيذ لدى 78% من مسؤولي الذكاء الاصطناعي في الشركات.

وقد تم تأكيد هذا المأزق في التنفيذ مرارًا من خلال التغذية الراجعة التقنية من رواد الشركات.

صرّحت Microsoft بشكل مباشر أن تطوير الـ Agent حاليًا يفتقر إلى آلية فعّالة للتتبع (trace). وعندما تفشل المهمة، لا يكون أمام المطورين سوى الاعتماد تقريبًا على “التخمين” لإجراء عملية التصحيح/إزالة الأخطاء (debugging).

وفي المقابل، كشفت Anthropic في وثائقها التقنية عن عيبين عميقين: الأول هو القلق السياقي، إذ يفقد النموذج تدريجيًا الاتساق عند معالجة المهام الطويلة، بل وقد ينتابه “مزاج كسل/نفور من العمل” لإنهائها بسرعة بسبب اقترابه من حد السياق. والثاني هو التفاؤل الأعمى؛ إذ لا يجيد النموذج تقييم جودة نتائجه ذاتيًا، وغالبًا ما يُظهر نتائجُه ثقة مفرطة.

وفي الوقت نفسه، أطلق OpenAI أيضًا تحذيرًا: ففي عالم اليوم حيث أصبحت تعاونات الـ Multi-Agent واستدعاء الأدوات أكثر تكرارًا، تتضخم مخاطر الأمن مثل PromptInjection (حقن/تلاعب بالأوامر) وتسريب البيانات السرية بشكل لا نهائي تقريبًا.

عندما تتراكم هذه المشكلات، تتشكل على مستوى الشركات أربعة نتائج مباشرة: عدم ثبات في الأداء، وعدم قابلية المخاطر للتحكم، وعدم إمكانية تحميل المسؤولية عن المشكلات، وعدم القدرة على إثبات عائد الاستثمار (ROI). وعمليًا، فإن السبب الحقيقي ليس أن “النموذج غير ذكي بما يكفي”، بل أن الشركات تفتقر إلى “نظام تشغيل” يسمح للذكاء الاصطناعي أن يعمل باستمرار وبشكل موثوق وعلى نطاق واسع.

عند مراجعة السنوات الثلاث الماضية، تغيّرت هيئة الذكاء الاصطناعي تغيّرًا جوهريًا. كان الذكاء الاصطناعي بين 2022 و2024 أقرب إلى روبوت أسئلة وأجوبة متقدم. لكن بحلول 2026، أصبح الذكاء الاصطناعي لأول مرة قادرًا فعلًا على العمل بشكل متواصل؛ إذ يمكنه تفكيك المهام، واستدعاء الأدوات، وتنفيذ تدفقات عبر الأنظمة المختلفة، بل ويمكنه اتخاذ قرار ذاتي إلى حد معين.

إنها طفرة نوعية، لكن في هذه اللحظة بالذات انكشفت المشكلة بشكل أكثر اكتمالًا. لم يعد الذكاء الاصطناعي “هامسترًا محبوسًا في قفص”، بل أصبح “فرسًا شرسًا” يمكنه أن يركض وحده. يستطيع الآخرون ركوبه فينطلقون حيثما يشاءون؛ لكن عندما تركبه الشركات، غالبًا ما يحدث معها مباشرة “انكسار الساق”.

لذلك، بدأ القطاع يدرك واقعًا قاسيًا: إن السقف الأقصى لقدرات الذكاء الاصطناعي لم يعد يحدده النموذج، بل تحدده مقولة: هل يمكنك “السيطرة عليه” أم لا.

في فبراير 2026 ظهر نقطة انعطاف محورية. في تجربة لفريق LangChain، اكتشف الباحثون أن استخدام نفس النموذج (GPT-5.2-Codex)، دون تغيير المعلمات، وبمجرد تحسين Harness، رفع درجة هذا النموذج في اختبار Terminal Bench2.0 من 52.8 إلى 66.5، وانتقل الترتيب من Top30 مباشرة إلى Top5.

يمكن ملاحظة أن النموذج لم يتغير، لكن القدرات قفزت للأعلى.

وقد شكل هذا إشارة قوية: ما ينقص القطاع ليس “ذكاءً أعلى من الذكاء الاصطناعي”، بل منظومة هندسية تمكّن من ترويض الذكاء الاصطناعي، والهبوط به بهدوء. ومن خلال هذا السياق تحديدًا، تم تقديم Harness Engineering (هندسة الترويض/التحكم) رسميًا، لتصبح “زمامًا” يسمح للذكاء الاصطناعي بالعمل باستمرار وبشكل موثوق وعلى نطاق واسع، وليكون أملًا جديدًا في دفع تطبيق الذكاء الاصطناعي إلى الواقع.

ثانيًا: Harness، منظومة تربة تمكّن الذكاء الاصطناعي المؤسسي من الهبوط بسلاسة

إذا كانت جوهر صعوبة تطبيق الذكاء الاصطناعي تكمن في فقدان السيطرة عليه، فإن Harness ما الذي تريد فعله فعلًا؟ تحويل نظام احتمالي إلى نظام هندسي.

ومن حيث المبدأ الأساسي، فإن نموذج اللغة الكبير هو في جوهره “مولد لتوزيع احتمالي”، وليس نظامًا حتميًا. تشير دراسة عام 2026 إلى أنه حتى عندما يكون أداء الـ Agent ممتازًا على مجموعات قياس عالية الدقة، فإن معدل النجاح في عمليات التنفيذ المتكررة ينخفض من 60% إلى 25%، والاستقرار بعيد كثيرًا عن متطلبات الأنظمة على مستوى المؤسسات. وهذا يعني أن “متوسط صحة” النموذج، في سيناريوهات الشركات، يساوي “غير قابل للاستخدام”.

وهذا يقود إلى السؤال الجوهري الأول: لا تستطيع الشركات معرفة لماذا يفشل الذكاء الاصطناعي.

تشغيل الـ Agent التقليدي يشبه الصندوق الأسود؛ عند ظهور خطأ، لا تعرف إن كان السبب خللًا في استدلال النموذج، أو خللًا في استدعاء الأدوات، أو انتهاء مهلة (timeout) من نظام خارجي. وفي أنظمة الشركات، فإن “عدم القابلية للتفسير” بحد ذاتها أمر غير مقبول. وبسبب نقص الملاحظة/القابلية للرصد (observability)، يتم حجز عدد كبير من مشاريع الذكاء الاصطناعي في مرحلة التصحيح ولا يمكن دفعها للأمام؛ لذلك يعتبر القطاع عمومًا “غياب التتبّع/القابلية للاسترجاع” عائقًا رئيسيًا يمنع دخوله بيئة الإنتاج. لذا، فإن الخطوة الأولى في Harness ليست تحسين النموذج، بل جعل العملية قابلة للمرئية.

تستطيع تسجيل كل خطوة من خطوات تفكير الـ Agent، ومعلمات استدعاء الأدوات، والسياق، ثم تفعيل آليات التراجع (rollback) أو التدخل البشري عندما يتم اكتشاف “حلقة منطقية ميتة” أو “مسار غير طبيعي”، وتحويل سلوك الصندوق الأسود إلى نظام يمكن تصحيحه/إزالة الأخطاء فيه.

لكن المشكلة لا تقتصر على “عدم الرؤية”، بل إن حتى عندما ترى، ستصبح الأمور أكثر فوضوية مع الوقت. في المهام الطويلة، ينتج النموذج “قلق سياقي”؛ كلما طالت المهمة، كلما أصبح النظام أقل استقرارًا، وغالبًا ما يميل النموذج إلى إصدار تعليمات غير قانونية أو تسريب بيانات.

بعبارة أخرى، فإن فقدان السيطرة ليس حادثًا عرضيًا، بل يتضخم بصورة أسّية مع ازدياد التعقيد. لذا، تتمثل وظيفة Harness الثانية في الحد من “الحمل المعرفي” للنموذج. فهي لا تقوم بإغراق النموذج بكل البيانات دفعة واحدة، بل تقوم بإطعام “المعرفة الضرورية” بدقة بناءً على عقد/محطات المهمة، للحفاظ على صفاء ووضوح ذهن النموذج.

ومع ذلك، حتى بعد التحكم في طول العملية، توجد مشكلة أكثر خفاءً: وهي أن النموذج لا يعرف أنه أخطأ.

في الواقع، لا تنشر العديد من مشاريع ذكاء اصطناعي لدى الشركات على الإنتاج بسبب أن تقييم النموذج لنفسه غالبًا ما يكون “متفائلًا بشكل أعمى”، لذا لا تجرؤ الشركات على إرسال نتائج الذكاء الاصطناعي مباشرة إلى العملاء.

لذلك، تتمثل قدرة Harness الثالثة في استدعاء نموذج آخر متخصص في “المراجعة/التدقيق”، لتصحيح أخطاء ناتج الـ main Agent. إن الانتقال من “نظام تقييم ذاتي” إلى “نظام تقييم خارجي” يتيح بناء درجة موثوقية للنتائج.

لكن عند هذه النقطة، لم تنتهِ المشكلة.

فمن المهم أن تعلم أنه عندما يدخل الذكاء الاصطناعي بيئة الشركات فعلًا، فإنه لا يواجه مهمة واحدة فقط، بل يواجه نظامًا معقدًا، مثل ERP وCRM ومستودعات البيانات ومنصات low-code وبوابات API، وغيرها.

ويحتاج الذكاء الاصطناعي إلى استدعاء مئات الواجهات مثل ERP وCRM ومنصات low-code. ومن السهل جدًا أن تنهار استدعاءات Function Call وحدها. تُظهر البيانات أن أكثر من 60% من حالات فشل الذكاء الاصطناعي تعود إلى انحراف نطاق المهمة ومشكلات البيانات، وبشكل جوهري تكون كلها بسبب “تعقيد النظام يفوق طاقة التحمل”. وهذا يعني أنه حتى المشكلات السابقة، بما في ذلك الصندوق الأسود وفقدان السيطرة والهلوسة، سوف تتضخم أكثر على مستوى “تكامل الأنظمة”.

لذلك، فإن وظيفة Harness الأخيرة هي العمل كـ “مهايئ/محول شامل”، يحوّل واجهات بيانات داخلية قديمة وغير معيارية للشركات إلى بروتوكولات معيارية قابلة للقراءة بواسطة الذكاء الاصطناعي، بحيث يمكن للشركة توحيد إدارة مسارات الاستدعاء والصلاحيات والحالة.

إجمالًا، لا تحل Harness مسألة ما إذا كان الذكاء الاصطناعي “يمكنه” القيام بالمهمة فحسب، بل تجعل الذكاء الاصطناعي يمكن تصميمه ويمكن التحكم به ويمكن تقييمه ويمكن إدخاله ضمن تدفقات عمل حقيقية. من خلال تغليف قدرات الذكاء الاصطناعي التي كانت تعتمد على المخرجات الاحتمالية، داخل عمليات صناعية معيارية وقابلة للتنبؤ وقابلة للتدقيق، يتم تحقيق تطبيق الذكاء الاصطناعي فعليًا في أعمال الشركات.

ثالثًا: عصر ما بعد الـ Agent: لم يعد تطبيق الذكاء الاصطناعي مجرد مسألة تقنية

هل ستصبح Harness فعلًا هي النواة الجديدة لتحديد ما إذا كان Agent قابلًا للتطبيق؟

في الحقيقة، يوجد في الوسط بالفعل جدل حول هذا الاستنتاج القطعي.

يرى تيار نماذج اللغات الكبيرة، ممثلًا بـ OpenAI وAnthropic، أنه مع التحسن المستمر في قدرات الاستدلال وقدرات السياق الطويل، سيصبح Agent أكثر “اتساقًا داخليًا” تدريجيًا؛ وأن Harness ستكون مجرد “سقالة” على مراحل.

بعبارة أخرى، يعتقد تيار نماذج اللغات الكبيرة أنه طالما أن حصان/نموذج “الحصان” قوي بما يكفي، فهو يستطيع سحب الحمولة وتشغيلها بنفسه. فالحصان الحالي ما زال يحتاج إلى معدات معقدة مثل القيد/العربة والزمام، لأن الحصان ما زال غير ذكي بما فيه الكفاية. وفي المستقبل عندما يتطور الحصان إلى “حصان خارق/神马”، ستصبح هذه الهياكل الخشبية والأحبال كلها زائدة ولن تعيق إلا أداء الحصان.

لكن تيارًا آخر، يأتي من جانب أكثر ميلاً إلى الهندسة والتحقق التطبيقي.

أكد Harrison Chase، مؤسس LangChain، علنًا على نحو واضح: غالبًا ما يأتي تحسن الأداء من “تحسين الأنظمة الخارجية، وليس تحديث النموذج”. وذكر Satya Nadella من Microsoft مرات عديدة أن لكي يدخل الذكاء الاصطناعي إلى الأنظمة الأساسية للشركات، يجب أن يمتلك “قابلية الملاحظة، وقابلية التحكم، وحدود الأمان”.

الحكم وراء ذلك هو أن حتى لو كان النموذج قويًا، فهو مجرد “وحدة قدرات”، وليس “نظام إنتاج”. فحتى لو كان الحصان قويًا، فهو مجرد حيواني قوة؛ لا توجد فيه حجرة/عربة ولا عجلات. لا يوجد مكان توضع فيه البضائع. بدون زمام، سيركض الحصان بشكل عشوائي. وفي الشركات، فإن “البضائع” هي “بيانات الأعمال”، والوجهة هي “إنجاز المهمة”. وبدون هذه البنية الهندسية الدقيقة، لن يتمكن الذكاء الاصطناعي أبدًا من الهبوط الآمن والدقيق داخل الواقع.

بعبارة أخرى، يحدد النموذج “ما الذي يمكنه فعله”، بينما تحدد Harness “ما إذا كان يمكنه تحقيق ذلك بثبات”.

ومن هذا المنظور، فإن اختلاف الرأيين يقابله في الحقيقة مشكلتان مختلفتان: واحدة تجيب عن “أين يقع سقف الذكاء الاصطناعي؟”، والأخرى تجيب عن “هل يمكن استخدام الذكاء الاصطناعي أم لا”.

لكن حتى الآن، لم يعد الناس يتجادلون حول من سيحل محل الآخر، بل بدأوا بتنفيذ “ضربة مركبة”.

من ناحية، تبدأ شركات النماذج بالتمدد إلى طبقة Harness. أطلقت OpenAI Agents SDK وCodex، وقامت بإدخال قدرات النموذج مباشرة داخل بيئة التنفيذ. كما أطلقت Anthropic MCP وAgent Skills، وحولت إدارة السياق وقدرات تدفق العمل إلى منتجات. وهذا يوضح اتجاهًا: حتى أكثر من يصر على “تيار النماذج”، بدأ يستكمل قدرات طبقة النظام، لأن الاعتماد على النموذج وحده لم يعد كافيًا لدعم تنفيذ المهام المعقدة.

ومن ناحية أخرى، تستمر أطر العمل الهندسية في “الاستفادة من ربح النماذج”. فبالطبع، أطر مثل LangChain وAutoGen وCrewAI ما تزال في جوهرها تعتمد على نماذج أقوى لرفع الحد الأعلى للقدرات.

وهكذا، يتشكل تدريجيًا نمط تداخل وتكامل. تبدأ شركات النماذج في بناء الأنظمة، بينما تعتمد شركات الأنظمة على النماذج؛ وكلا الطرفين يقتحم حدود قدرات الطرف الآخر.

ويولد هذا الاندماج أيضًا أنماطًا صناعية أكثر تخصصًا. توجد شركات تركز على “طبقة الترجمة”، تقوم بتحويل البيانات المعقدة وغير المهيكلة داخل الشركات (PDF وExcel وقواعد البيانات) إلى سياق يمكن للنموذج فهمه. وهناك شركات تقوم بـ “Harness موجه لقطاعات بعينها”، مثل تثبيت تدفقات المهام على قوالب في مجالات مثل القانون والتمويل، بحيث يحتاج المستخدم فقط إلى إدخال المواد، ويقوم النظام تلقائيًا بتحليلها وتنفيذها. وهناك أيضًا نوع يعمل على تعاون متعدد النماذج، بحيث تصبح Harness بمثابة “القائد”، وتقوم بجدولة نماذج مختلفة وفقًا لنوع المهمة؛ مثل جعل GPT مسؤولًا عن توليد المحتوى، وClaude مسؤولًا عن كتابة الكود، والنماذج المحلية لمعالجة البيانات الحساسة.

الخاصية المشتركة لهذه الأشكال هي أنها لم تعد تعتبر النموذج “منتجًا”، بل تعتبره “مكونًا”. لكن إذا نظرنا أعمق، فإن هذا الجدل يحمل أيضًا بصمات واضحة من حيث “المواقف”. تركز شركات النماذج على أهمية النموذج، لأنه أصلها الأساسي؛

وتركز شركات الأطر على Harness لأنها مصدر قيمتها؛ ومن جانب الشركات، يتم التركيز أكثر على “البيانات والعمليات/التدفقات”، لأنها العامل الذي يحدد عائد الاستثمار (ROI) في النهاية.

وبعبارة أخرى، لا يتعلق الأمر فقط باختلاف المسار التقني، بل إنه إسقاط لمصالح تجارية. إلى حد ما، يعزز كل طرف “الطبقة التي تكون في صالحه أكثر”.

لذلك، للعودة إلى السؤال الأصلي: هل Harness حل انتقالي، أم نواة جديدة؟

وفقًا للاتجاهات الحالية، يبدو أنها أشبه بـ “طبقة وسطية لا رجعة فيها”. تمامًا كما أن نظام التشغيل بالنسبة للأجهزة، وقاعدة البيانات بالنسبة للتطبيقات، فإن Harness أصبحت تصبح تلك الطبقة “واجهة” بين الذكاء الاصطناعي والعالم الواقعي. عندما ينتقل الذكاء الاصطناعي من “القدرة على التحدث” إلى “القدرة على إنجاز العمل”، فإن Harness هي الحبل/زمام الذي يحدد إلى أي مدى يمكنه الركض.

كمّ هائل من المعلومات، وتحليل دقيق، كل ذلك متاح في تطبيق Sina Finance

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.