مقدمة DeepChao: عندما يبدأ النموذج الكبير في التفوق على البشر في جميع التصنيفات، يبدأ المستثمرون في الوقوع في نوع من اليأس: ما الذي يستحق الاستثمار فيه غير أنثروبيك وNVIDIA؟ يوضح هذا المستثمر الرائد في وادي السيليكون باستخدام البيانات والحالات أن الحصن الحقيقي لا يوجد في التصنيفات—إنه مخبأ في الأماكن التي لا يمكن قياسها بواسطة المعايير.

في منتصف عام 2026، يصبح جنون الذكاء الاصطناعي للمستثمرين نوعًا من اليأس: لا يوجد شيء يستحق الاستثمار فيه، يجب أن نستثمر كل أموالنا في أنثروبيك وNVIDIA ثم نعود إلى المنزل.

لم أشعر بهذا من قبل. أنا مقتنع تمامًا أن النماذج أصبحت أذكى بكثير من إصداراتي، وأرغب في شراء أنثروبيك وNVIDIA بالسعر السوقي، وكل أصدقائي الأذكى يعتقدون أن التحسين الذاتي سيتحقق بسرعة—لكنني لا أشعر بهذا اليأس.

هذا اليأس ليس غبيًا. المنطق هو كالتالي: إذا كانت النماذج تتحسن باستمرار في كل شيء، فإن كل شركة تعتمد عليها تكون مجرد غلاف رقيق، في انتظار أن يتم استيعابها، والقيمة الوحيدة التي تبقى هي القدرة الحاسوبية والأوزان المتقدمة.

كمثال على البرمجيات، هذا هو الحالة التي يعتمد عليها المتشائمون أكثر. عندما أُطلق Devin في 2024، كان قادرًا على حل 13% فقط من المهام على معايير البرمجيات القياسية، وتجاهله الجميع تقريبًا. بعد سنة ونصف، وصل أفضل وكلاء إلى أكثر من 80 نقطة، ويقومون بأعمال حقيقية داخل GS والجيش الأمريكي. تقريبًا الجميع استخلصوا نفس الدرس الخاطئ: أن النماذج تلتهم هندسة البرمجيات. لكن عندما تبتلع النماذج الجزء الأسهل قياسًا من هندسة البرمجيات، فإننا ندرك من جديد شيئًا كان يعرفه العديد من الفرق منذ زمن—الهندسة دائمًا ترفض القياس، والأجزاء الأسهل قياسًا قد لا تكون الأهم.

أخيرًا، أعطى Mert Demirer وزملاؤه أرقامًا: بين أكثر من 100 ألف مطور، زادت كمية الكود التي يكتبها أحدث وكيل برمجي حوالي 180%، بينما زادت الكمية الفعلية من الكود المنشور حوالي 30%. أصبح كتابة الكود أرخص. والأجزاء المتبقية لا تزال تتطلب الإنسان، وهو أمر مهم جدًا. بالطبع، التأثير الصافي لا يزال مذهلاً.

المعايير هي ما يمكنك قياسه، وما يمكنك قياسه هو ما تدرب عليه. لذلك، فإن وكلاء البرمجة هم الأسرع نضجًا: المترجمون هم المدققون المجانيون، ومجموعات الاختبار هي المدققون المجانيون، وعندما يتحقق الحل من نفسه مجانًا، يمكنك تحسينه باستمرار حتى تتفوق عليه. لكن الاختبار لم يخبرك أبدًا أن هذا التغيير صحيح أو خاطئ، خاصة بالنسبة لنظام قد يحتوي على ثلاثة وحدات غير موثقة، وعمليات النشر تعتمد على كراون جوب لا يريده أحد أن يعترف بأنه كتبه، ويعمل على قاعدة بيانات قديمة منذ عشر سنوات.

هذه الصحة لا يمكن قراءتها من التصنيفات، وفي الواقع، لا يمكن قراءتها من أي شيء. أنت تتعلم من خلال تشغيلها في العالم الحقيقي لفترة كافية، لتكتشف ما إذا كان هذا النظام المعقد فعالًا، والنماذج الأذكى لا تجعل العالم يعمل بشكل أسرع. لا أحد يختبر وحدات في Google ويصدق العلامة الخضراء؛ أنت تثق فيها لأنها تحمل عبء العمل الحقيقي لسنوات. هذه الصحة ليست خاصة، بل هي نوع من الحصن البطيء الذي لا يمكن أن ينهاره رأس المال. حتى المتفائلون يعترفون أن الساعة لا يمكن أن تتخطى: كتب نعام براون، رائد نماذج الاستدلال في OpenAI، مؤخرًا أن الطريقة الوحيدة الموثوقة لتقييم وكيل خلال سنة واحدة هي... تشغيله لمدة سنة.

كما قال Gabe Pereyra، فإن الأتمتة الحقيقية ليست فقط في تحسين النماذج. إنها تتعلق بمنتج، ونموذج، وسير عمل، وشركة تتحرك معًا، وثلاثة من هذه الأربعة يتحركون بسرعة التنظيم.

الأشخاص هم الجزء الذي لا يمكن للمعايير قياسه: جعل شريك مشكك يغير طريقة تعامله مع الأمور، والحفاظ على وحدة الفريق أثناء إعادة البناء. لهذا السبب، عندما نوظف مديرًا تنفيذيًا، فإن القدرة على التعامل مع الناس مهمة على الأقل مثل القدرة على التحليل، ولن يغير النماذج الأذكى هذا الوزن. ردود الفعل غامضة، والإطار الزمني يمتد لسنوات، والثقة تنتمي لشخص واحد. كل شركة أعرفها جعلت جميع المهندسين يستخدمون نماذج الترميز المتقدمة، لكن لا واحدة غيرت تنظيمها الهندسي بسرعة مماثلة. استغرق الأمر ربع سنة، يا لها من زيادة مذهلة في النمو! لكن إعادة البناء تستغرق سنوات.

ما نراه يبتعد هو ما يختفي. العمل ذو القيمة غير مرئي في هيكله: أي شيء يمكنك وضعه في التصنيفات، يمكنك تدريبه عليه، لذلك أي شيء يمكن قياسه يتجه نحو السوق. هذه العملية تحتاج إلى وقت ولن تكون كاملة أبدًا، لكن الاتجاه لن يتغير أبدًا. بمال من زميلي في Rippling، Matt MacInnis، نقول: النقاط التي تُستخدم للإجابة على الأسئلة العامة تكاد لا تساوي شيئًا، لأن أي نموذج يمكن أن يجيب عليها، بينما القيمة الحقيقية تأتي من النقاط التي تستخدم لاستنتاج بيانات شركتك، لأنها تنجز ما تريد حقًا، وليس مجرد شيء يبدو معقولًا.

العمل المرئي يُستهلك من جهتين. من الأسفل، يتشبع المهام: بمجرد أن يمكن فحص عمل معين بتكلفة منخفضة، لا يسأل المشتري عن النموذج الذي أنجزه، بل عن كم أنفق على ذلك، ويصبح العمل من نصيب النموذج المفتوح أو المقطوع من شجرة الأرخص في ذلك الأسبوع. في أي مكان يمكن أن يحدث فيه تأثير، تكون هوامش الربح مهمة جدًا. من الأعلى، تحاول المختبرات أن تجعل النماذج تبتلع أدواتها الخاصة. استرجاع البيانات، التوجيه بين الاستدعاءات الرخيصة والمكلفة، استخدام الأدوات، وحتى استراتيجيات الاستدلال، جميع الأجهزة التي كانت تغلف النماذج تُدمج في الأوزان، حتى يصبح الغلاف هو النموذج. هذا هو الامتصاص للمتقدمين. كما أن ضغط هوامش الربح يعمل عكس ذلك: الوكيل العام يجب أن يكون جاهزًا لأي مهمة، وهو مكلف، بينما يمكن للتطبيقات المركزة أن تعدل سير العمل ليعمل على جزء صغير من النقاط، وبخلاف المختبرات التي تبيع تلك النقاط، يحتفظ الفرق بالفرق في السعر.

لذا، يمكننا أن نطرح على أي نوع من العمل سؤالين. هل صحتها خاصة وتكلفتها عالية، أي الحقيقة الموجودة فقط داخل بيانات شخص معين؟ هل هي معزولة، ومقيدة في نظام لا يمكنك الوصول إليه؟ بمقارنة ذلك مع مدى تشبع المهمة، تحصل على مصفوفة 2×2. الأعمال ذات الإجابات المفتوحة التي تتشبع هي رموز قابلة للتداول، والنماذج المفتوحة تمتلكها. الأعمال الرائدة ذات الإجابات المفتوحة، حيث توجد معايير التشفير، هي مكان فوز المختبرات، لأنه عندما تكون التقييمات مجانية، فإن امتلاكها لا يساوي شيئًا. الجائزة في الزاوية الأخيرة، تلك غير القابلة للتدريب: الصحة لا توجد إلا في المجال الخاص للأعمال الرائدة. يمكنك رؤيتها في سحابة الاستدلال الخاصة بالمبادرات الرائدة في الذكاء الاصطناعي، حيث معظم النقاط تُنتج بواسطة نماذج مخصصة، وليس نماذج مفتوحة عامة.

الجدار الذي يدخل إليه في الزاوية الأخيرة يختلف ارتفاعه. مستودع الكود الخاص بمطور فردي هو قابل للنقل وموحد، لذا الصعود إليه قصير. أنظمة البنوك الإنتاجية ليست كذلك، ولن تحصل على صلاحية الجذر بمجرد أن تتفوق بنسبة 2% على SWE-Bench Verified.

القدرة تستهلك الكثير، لكن النماذج الأفضل لن تجعل الحقائق الأساسية الخاصة بك عامة. فهي لا تملك ترخيصًا، ولا تتحمل مسؤولية، ولا تملك وثائق الشركة، وعندما تكون الإجابة خاطئة، لا يمكن أن تكون طرفًا في الدعوى. الذكاء ليس هنا العقبة. الترخيص هو، والمسؤولية أيضًا. يمكنك تصور نموذج أذكى بكثير من أي شخص، لكنه لا يزال بحاجة إلى إذن للدخول، ويجب أن يُنسب إليه العمل الذي يقوم به.

تلك الباب لها قفل ومانع باب. القفل هو البيئة: فقط بعد أن تثق في النظام الداخلي، وبعد مراجعة الأمان، والتكامل، وعقد التوقيع على النتائج، يمكنك التحقق مما إذا كان الذكاء الاصطناعي قام بشيء مفيد. ومانع الباب هو المستخدم. الآن، يفتح معظم الأطباء في الولايات المتحدة يوميًا OpenEvidence، ولا يمكن لأي قوة حسابية شراؤه. يمكن للمختبرات تدريب نموذج طبي مثالي غدًا، لكن لن يتمكن من دخول عادات الأطباء، أو عمليات اتخاذ القرار في جامعة كاليفورنيا في سان فرانسيسكو، لأن الثقة تُبنى ببطء، وتستند إلى العلاقات، وتتطلب موافقة المستخدمين، وليس محو تدرجاتهم النزولية.

وهذا هو العمل أيضًا. تطبيق يربح مكانه في الزاوية غير القابلة للتدريب من خلال أداء عمل بسيط: تنظيم الواقع الخاص بالشركة بحيث يمكن للنموذج اتخاذ إجراءات، وتزويده بأدوات للعمل، والتعاون مع العملاء لتغيير واقع موظفيهم. شركة تقدم خدمات الترجمة يصعب تكرارها—والترجمة لن تنتهي أبدًا. يتطلب التكامل والصيانة وقتًا وعلاقات طويلة، والفريق الذي يضع مهندسي المجال والأدوات بجانب العملاء هو الذي يربح.

على سبيل المثال، في شركة محاماة من الدرجة الأولى، يتم تنفيذ حوالي ألف صفقة سنويًا في مجال الاندماج والاستحواذ فقط. لأسباب تتعلق بالسرية وأسباب أخرى، لا يمكنك أن تسمح لمئات المساعدين بتنزيل ملفات العملاء على سطح المكتب وطلب من وكيل عام أن يراجعها، وحتى لو استطعت، فستحصل على نتائج متفرقة، وتعديلات من مساعد واحد في كل مرة، دون أن ترى كيف تتدفق الصفقة بأكملها. الإشارات المهمة موجودة على مستوى المعاملات، والصفقات لها شكل: في الاندماج والاستحواذ، هي اتفاقية سرية، قائمة الشروط، التحقيقات، اتفاقية الشراء، المستندات الملحقة، قائمة التسليم؛ وفي قضايا براءات الاختراع، هي الطلبات، الكشف عن الأدلة، التقنية الحالية، المزيد من الطلبات. كل مجال عمل لديه أدواته الخاصة، والمحامون لا يمكنهم التبادل بين المجالات. المشكلة التي تحلها الشركة تقع على مستوى أعلى من كل ذلك: إدارة كل مجال بشكل متزامن، كما يدير الشركاء الكبار مئات القضايا في وقت واحد، ويضيفون قضايا جديدة ويقومون بتدريب المساعدين. التحول في مثل هذه الشركة ليس مهمة يمكن تقييمها من خلال مهمة واحدة، بل يتطلب قائدًا يستخدم التحليل البياناتي، مع أهداف غامضة جدًا، وردود فعل غير مكتملة، ومدة زمنية طويلة، وفي بيئة لا تتوقف.

لسوء الحظ، القيمة غير المرئية من الصعب بيعها، لنفس السبب الذي يجعل من الصعب تسويقها: لا يمكن للشركة أن تحكم من الخارج ما إذا كانت ستتحول إلى التشغيل، تمامًا كما لا يمكن للمعايير أن تحكم. لذلك، تتوقف الشركات الأقوى عن محاولة إثبات ذلك من الخارج، وتبدأ في تقييم النتائج داخليًا. شركة Sierra تتقاضى رسومًا عند حل مشاكل العملاء باستخدام وكيل، ولا تتقاضى شيئًا عندما تسلم المشكلة للبشر، لذلك يصبح السعر هو التقييم، وهذا فعال فقط عندما يكون لدى Sierra تعريف "تم الحل". Devin من Cognition يتبع نفس النهج في البرمجيات، ويقدم "ضمان الأداء"، وهو شيء يمكن تقديمه فقط عندما يُسمح لك بالدخول إلى النظام الموثوق.

حتى مع رموز الخدمة، فإن كل شخص يحب أن يسميها طبقة سلعية، لكنها لا تعمل كسلعة حقيقية. أفضل شركات الذكاء الاصطناعي الأصلية تركز خدماتها على مزود واحد أو اثنين (مثل Baseten أو Fireworks)، لأن تكلفة كل رمز تُسوق كسلعة، لكن الاعتمادية والوصول الموثوق إلى الحوسبة النادرة لا يُسوقان. المكان الذي تقدم فيه الخدمة يختلف عن النموذج الذي تستخدمه. السعر هو الجزء الوحيد الذي يعمل كسلعة في الاستدلال.

الاعتراض الشائع هو أن المختبرات هي الموردون الخاصون بك—فلماذا لا تعمل على تشغيل منتجاتها الخاصة بأقل من التكلفة لاستنزافك، أو تلغي وصولك إلى API وتحتكر السوق؟ هذا هو النسخة اليائسة، وهو صحيح فقط عندما يكون النموذج لعبة فردية. من الواضح أنه ليس كذلك—إنه يبدو أكثر كسباق موت بين ثلاثة ونصف أطراف، حيث يتدرب فريق دولي متأخر بستة أشهر، وتحالفات التطوير تتضاعف خمس مرات العام الماضي. العملاء يريدون وجود منافسة بين الموردين، والمختبرات تريد حصة سوق، وليس أن تموت أي تطبيق.

يمكنك أن ترى ذلك في السوق التي تتصارع فيها المختبرات. في محادثات المستهلكين، لم يفز أفضل نموذج ببساطة أبدًا. حافظ ChatGPT على تفوقه لسنوات في المنافسة الحقيقية، والجزء الذي خسره الآن يتجه نحو Gemini، مدعومًا بقوة Android والبحث، وليس بنموذج أفضل. شركة أنثروبيك، وسوق التوقعات (وأجواء الإنترنت) حاليًا، تعتبر من الشركات التي تمتلك أفضل النماذج، وفي محادثات المستهلكين تكاد لا تكون عاملًا، بل تبني أعمالها في الشركات والبرمجة. إذا لم تستطع النماذج الأفضل أن تسرق المستخدمين من المنافسين في التطبيقات الأساسية، فلن تتسلل عبر سجلات المستشفيات أو مسؤوليات البنوك من خلال التكامل. خيارات الجمهور اليوم لا تعتمد فقط على التشفير. إذا استمر التقدم في التنافس، فسيكون فوقه شيء ذو قيمة.

إذا لم يكن العمل قابلًا للتقييم من الخارج، فيجب على شخص داخلي أن يقرر ما هو الجواب الصحيح، وهذا هو اللعبة بأكملها. العديد من هذه القرارات، إذا كتبتها، تصبح معيارًا. Harvey أصدر معيارًا قانونيًا، وSierra أصدرت معيارًا لوكيل الصوت. أنت تربح حق تحديد ما يعنيه أن يكون جيدًا في هذا المجال من خلال التبني الحقيقي، وتلك الشركات تربح هذا الحق من خلال التنافس الحقيقي على الاعتماد.

التقييم الحقيقي، الذي يحدد القيمة، خاص ويختلف من شركة لأخرى: الشركة، في هذا النوع من الأعمال، ستقبل ما تعتبره عملًا جيدًا، وهو غير مكتمل بعد، لأن عمق القانون يجعل أي اختبار عام يتضاءل. شركة OpenEvidence تعمل على تحديد ما هو الجواب الآمن في المجال السريري. كل ذلك ليس تقييمًا حقيقيًا، بل هو حكم حول ما هو حقيقي وما هو جيد، يُكتب حتى يصبح المعيار الذي يُقاس عليه الجميع، ويصعب على المختبرات الأساسية أن تكتبه، لأن هذا المكان موجود فقط داخل المجال. هذا النوع من السلطة يميل إلى أن يتركز في المكان الذي تجلس فيه بالفعل. المحامون المخضرمون يكتبون معايير قانونية. تحديد الجواب الآمن سريريًا يقع على عاتق الأطباء. والحل الذي تم التوصل إليه يعني أن أي شركة لديها عملاء بالفعل تقول ماذا يعني ذلك.

الامتصاص للمتقدمين يتصاعد باستمرار، لأننا نتعلم قياس المزيد من الأعمال، والأشياء التي يمكن قياسها تُستهلك. الأرض غير القابلة للتدريب تتقلص تحت أقدام من يقف عليها، لذلك لا يمكنك العثور على نقطة دفاعية ثم تستريح. أنت تتقدم باستمرار نحو أشياء لا يمكن تقييمها بعد، وتعيد تقييمها باستمرار. في مهمة ضيقة، باستخدام بياناتك الخاصة وتقييمك، يمكنك الوصول إلى المتقدم، والتفوق على النماذج العامة في المناطق المهمة، ويصبح النموذج المتخصص جزءًا من الحصن. من ناحية أخرى، التنافس على النماذج العامة هو حرب رأس مال، ستخسر أمام من يملك أكبر قدر من القدرة الحاسوبية، وهو فخ الشركات ذات الوصول السطحي والمهام المرئية. فهي تعد بأن تتجاوز التقدم في المهام العامة يومًا ما، ويبدو أن الفائز يتحدد غالبًا بحجم مركز البيانات، والنهاية ليست عادة بطلًا مستقلًا، بل يُباع لمن يملك القدرة الحاسوبية الوفيرة.

كل ذلك هو دفاع. والأصعب هو الهجوم، وهو اختيار ما تبني عليه أولًا. هذا ما قضيت عامًا أبحث عنه، وربما وجدته ثلاث مرات. النموذج هنا لا يساعد. يمكنه أن يفعل أي شيء توجهه إليه، لكنه لا يخبرك بما يستحق التوجيه، ولا يمكنك تقييم ذلك، لذلك لا يمكنك تدريبه. ولهذا السبب، الشركات القائمة لا تأخذ كل شيء، فهي تحافظ على أراضيها، والشيء التالي يأتي من من يكتشف الاستخدام قبل الجميع. ربما، فإن الاستثمار الأكثر ندرة هو في النية أكثر من القدرة الحاسوبية.

النسخة اليائسة على حق نصف الحق. الطبقات الرقيقة من التغليف تُستوعب بالفعل، ويبدو أن الكثير من الشركات اليوم عبارة عن تغليف رقيق. وهي مخطئة بشأن البقية. الآلية واضحة؛ والوجهة ليست كذلك. أنا أراهن على الاتجاه: الذكاء يتراجع سعره باستمرار، والقيمة تتجه نحو الأماكن التي لا يمكن للنموذج الوصول إليها. الأشياء غير القابلة للتدريب هي ذات قيمة تاريخية. لذلك، أدخل إلى شيء، وابدأ بترجمة بسيطة، وابدأ بكتابة ما يعنيه أن يكون جيدًا هناك، لأن شخصًا ما سيفعل ذلك. أعلى تصنيف قياسي يُذكر اليوم هو خريطة إقليمية ستصبح ذات قيمة تافهة قريبًا، وإشعار حول من سيفقد حق قول ما يُعتبر جيدًا.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
38.51K درجة الشعبية
#
USMayCPIHitsThreeYearHigh
314.07K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
57.21K درجة الشعبية
#
USIranConflictEscalates
693.1K درجة الشعبية
#
GateLaunchesHongKongStockTrading
786.49K درجة الشعبية

مُثبت

خريطة الموقع

قلق المستثمرين في الذكاء الاصطناعي لعام 2026: عندما تبتلع النماذج كل شيء، ما الذي يتبقى من الحصن المنيع للشركات الناشئة؟

المواضيع الرائجة

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

مُثبت