【الأسئلة المئة الأولى من علي بابا قبل الأساسية】 لين جون يانغ يكتب ألف كلمة: نماذج الذكاء الاصطناعي ستتحول إلى «تفكير الكائن الذكي» الكشف عن سبب تخلّي Qwen عن التفكير المدمج ونمط الأوامر

robot
إنشاء الملخص قيد التقدم

Alibaba (09988) Qianwen (Qwen) نمط الذكاء الروحي للشخصية الرئيسية في شركة علي بابا، لين جونيوان، استقال فجأة في أوائل مارس، مما أثار في وقت ما تكهنات حول وجود خلاف بين لين جونيوان والإدارة. مع تهدئة العاصفة تدريجيًا، نشر لين جونيوان مؤخرًا على منصة التواصل الاجتماعي X مقالًا بعنوان 《From “Reasoning” Thinking to “Agentic” Thinking》(من «التفكير الاستدلالي» إلى «التفكير الوكيلي»). ورغم أن المقال يتناول بشكل رئيسي اتجاهات تقنيات الذكاء الاصطناعي، فإن بين السطور توجد مراجعة لتوجهات تقنية علي بابا في خط Qianwen.

وأشار إلى أن «التفكير الاستدلالي» الذي يستهلك قدرات الحوسبة فحسب قد وصل إلى نهايته، وسيكون الشوط الثاني من الذكاء الاصطناعي لمن يستطيع التفاعل مع البيئة الواقعية، مع «التفكير الوكيلي» (Agentic Thinking) الذي يفكر أثناء التحرك ويتصرف أثناء التفكير.

تحول تركيز الذكاء الاصطناعي: ماذا سيحدث بعد ذلك؟

أشار لين جونيوان إلى أن تركيز صناعة الذكاء الاصطناعي في النصف الأول من عام 2025 يتركز بشكل أساسي على «التفكير الاستدلالي» (Reasoning Thinking) — أي كيفية جعل النماذج الكبيرة تستهلك وقتًا وقدرات حوسبة أكبر للتفكير، وكيفية استخدام آليات تغذية راجعة أقوى لتدريب النماذج، وكيفية التحكم في عمليات الاستدلال الإضافية هذه.

ومع ذلك، فإن المشكلة التي يجب على الصناعة مواجهتها حاليًا هي: ماذا سيحدث بعد ذلك؟

يرى أن الجواب لا شك هو «التفكير الوكيلي» (Agentic Thinking). في المستقبل، لا ينبغي أن يكون الذكاء الاصطناعي مجرد تفكير مغلق داخل غرفة لإخراج الإجابات، بل «التفكير من أجل اتخاذ الإجراءات»؛ فهو يحتاج إلى إجراء استدلالات أثناء التفاعل مع البيئة، وتحديث الخطة وتصحيحها باستمرار بناءً على التغذية الراجعة التي يحصل عليها من العالم الحقيقي.

خارطة علي Qwen الداخلية وفشل «مسار الدمج»

كشف لين جونيوان في المقال لأول مرة عن خارطة تقنية داخل فريق Qwen في أوائل 2025. في ذلك الوقت، كان العديد من الأعضاء يأملون في بناء نظام مثالي يوحد نمطي «التفكير» و«الأوامر». كان تصور هذا النظام طموحًا للغاية:

ضبط ذكي: يمكنه، اعتمادًا على تلميحات السؤال (Prompt) والسياق، أن يحدد تلقائيًا كم من قدرات الاستدلال الحوسبية يلزم (مثل فئات منخفضة/متوسطة/عالية).

اتخاذ قرار مستقل: يجعل النموذج يقرر بنفسه متى يجب أن يجيب في أقل من ثانية، ومتى يجب أن يفكر بعمق وتروٍ، أو متى يجب أن يخصص قدرات حوسبة ضخمة عند مواجهة مشكلات صعبة.

أطلق لين جونيوان على Qwen3 اسم المحاولة العلنية الأكثر وضوحًا في هذا الاتجاه، مع إدخال «نمط تفكير هجين» يشدد على ميزانية تفكير قابلة للتحكم. ومع ذلك، يعترف لين جونيوان: «إن القول بالدمج سهل، لكن تنفيذه صعب للغاية.»

ويرى لين جونيوان أن الدمج القسري سيؤدي إلى أن يصبح النموذج «متوسطًا»، لأن توزيع البيانات وأهداف السلوك خلف «نمط التفكير» و«نمط الأوامر» مختلفان تمامًا؛ ففرض الدمج سيؤدي إلى أن تصبح «سلوكيات التفكير» مطولة ومترهلة وتفتقر إلى الحسم؛ بينما «سلوكيات الأوامر» ستفقد الرشاقة والوضوح، وتصبح غير موثوقة، بل وقد تزيد بشكل كبير تكاليف استخدام المستخدمين التجاريين.

من واقع الأعمال، يرى أن ما تحتاجه غالبية العملاء من الشركات فعليًا هو عمليات أوامر صرفة ذات إنتاجية عالية وتكلفة منخفضة وقابلية تحكم عالية (مثل المعالجة الدفعية).

ولهذا السبب تحديدًا، اختار فريق Qwen في سلسلة 2507 اللاحقة في النهاية نشر إصدارات مستقلة للأوامر (Instruct) والتفكير (Thinking). ويرى لين جونيوان أن فصل الاثنين يمكن أن يسمح للفريق بالتركيز بشكل أنقى على حل مشكلات البيانات والتدريب الخاصة بكل منهما، وتجنب توليد «شخصيتين مكدستين على نحو محرج».

استراتيجية المنافسين: «الضبط» لدى Anthropic وتوجه نحو الأهداف

على عكس مسار فصل Qwen، اختارت مختبرات أخرى مثل Anthropic وZhipu (GLM-4.5) عكس ذلك تمامًا: «مسار التكامل».

وأشار لين جونيوان تحديدًا إلى أسلوب Anthropic (سلسلة Claude)، واعتبر أن مساره التطوري يعكس نوعًا من الصرامة والانضباط؛ إذ تقوم Claude 3.7 / Claude 4 بالتناوب بين الاستدلال و«استخدام الأدوات».

تفكير موجه نحو الهدف: ترى Anthropic أن إنتاج مسارات استدلال طويلة جدًا لا يعني أن النموذج أكثر ذكاءً. إذا كان النموذج يتحدث مطولًا عن كل تفصيلة صغيرة، فهذا في الواقع يدل على سوء تخصيص الموارد.

الأفضلية للاستخدام العملي: إذا كان الهدف هو كتابة برنامج، فيجب أن يُستخدم تفكير الذكاء الاصطناعي للتخطيط وتقسيم المهام وإصلاح الأخطاء واستدعاء الأدوات؛ وإذا كان الهدف سير عمل وكيل، فيجب استخدام التفكير لتحسين جودة تنفيذ المهام طويلة المدى، وليس مجرد كتابة «مقالات استدلالية» تبدو قوية.

الفرق الجوهري بين التفكير الاستدلالي والتفكير الوكيلي

توقع لين جونيوان أن «التفكير الوكيلي» سيتولى في النهاية مكان ذلك النوع من الاستدلال «المنعزل» الذي يفتقر إلى التفاعل ويميل إلى الإطناب. النظام المتقدم الحقيقي يجب أن تكون لديه القدرة على البحث، والمحاكاة، والتنفيذ، والتحقق، والتصحيح، لحل المشكلات بطريقة متينة وفعّالة.

معايير التقييم تتغير: من «هل يستطيع النموذج حل مسائل رياضية؟» إلى «هل يستطيع النموذج دفع التقدم عند التفاعل مع البيئة؟».

الصعوبات الواقعية التي يجب التعامل معها:

  • يعرف متى يجب أن يوقف التفكير ويتخذ إجراءً.
  • يختار أي أداة يجب استدعاؤها وترتيب الاستدعاء.
  • يستطيع التعامل مع بيانات المراقبة الواقعية المزدحمة وغير المكتملة.
  • عندما يحدث فشل، يعرف كيفية تعديل الخطة.
  • يحافظ على اتساق منطقي في الحوارات متعددة الجولات واستدعاءات الأدوات المتعددة.

ثلاث تحديات تقنية رئيسية لتحقيق «التفكير الوكيلي»

بالإضافة إلى اختلافات مستوى التطبيق، حلل لين جون يانغ بعمق التحديات الهائلة على مستوى التطوير الأساسي للتفكير الوكيلي:

عنق زجاجة في البنية التحتية للتدريب (انهيار كفاءة GPU): التعلم المعزز الوكيلي (RL) أصعب بكثير من مجرد RL استدلالي. يحتاج وكيل الذكاء الاصطناعي إلى التفاعل بشكل متكرر مع أدوات خارجية (مثل المتصفح وبيئة تنفيذ معزولة)، والانتظار للحصول على ردود من البيئة الحقيقية قد يؤدي إلى توقف التدريب، مما يخفض بشكل كبير معدل استغلال GPU. في المستقبل، يجب فصل «التدريب» و«الاستدلال» بشكل نظيف.

«اختراق المكافأة» (Reward Hacking) وخطر الغش: عندما يمتلك النموذج صلاحية استخدام الأدوات، يمكنه بسهولة تعلم «الغش» لخداع مكافآت النظام (مثل الاستفادة من ثغرات النظام لعرض معلومات المستقبل)، بدلًا من حل المشكلة فعليًا. توسيع نطاق الأدوات يزيد مخاطر التحسين الوهمي، وستصبح اتفاقيات مكافحة الغش في المستقبل عنصرًا محوريًا في الشركات الكبرى.

تعاون متعدد الوكلاء (Multi-agent Orchestration): في المستقبل، لن تعتمد هندسة النظام على نموذج واحد فقط، بل على عدة وكلاء يتوزعون حسب الاختصاص. سيشمل النظام «مُنسِّقًا» مسؤولًا عن التخطيط، و«وكلاء خبراء» متخصصين في مجالات محددة، و«وكلاء فرعيين» للتعامل مع المهام الضيقة، وذلك للتحكم في السياق ومنع عملية التفكير من أن تتلوث.

الخلاصة: نقطة تركيز المنافسة في المرحلة التالية لصناعة الذكاء الاصطناعي

في نهاية مقاله، حدد لين جونيوان نقطة تركيز المنافسة في المرحلة التالية لصناعة الذكاء الاصطناعي: لن تكون «النماذج» وحدها هي الهدف التدريبي الجوهري في المستقبل، بل «النظام المتكامل من النموذج والبيئة» (الوكلاء وما حولهم من ارتباطات/حزم خطية).

عصر الاستدلال الماضي: تأتي الميزة من خوارزميات تعلم معزز (RL) أفضل، وإشارات تغذية راجعة أقوى، وخطوط تدريب قابلة للتوسع.

عصر الوكلاء القادم: ستعتمد الميزة على تصميم بيئة أفضل، ودمج أوثق بين التدريب والخدمة (Train-serve integration)، وهندسة أنظمة أقوى، والقدرة على جعل النموذج يتعلم تحمل عواقب قراراته وتكوين «حلقة مغلقة».

النص الأصلي في X

	 حديث سوقي ساخن (Hot Talk)
	





 مبيعات السيارات في الصين تتصدر «الأولى عالميًا» للمرة الأولى  هل ساعد ارتفاع أسعار النفط على تصدير السيارات الكهربائية؟
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • تثبيت