【الأسئلة المئة الأولى من علي بابا قبل الأساسية】 لين جون يانغ يكتب ألف كلمة: نماذج الذكاء الاصطناعي ستتحول إلى «تفكير الكائن الذكي» الكشف عن سبب تخلّي Qwen عن التفكير المدمج ونمط الأوامر

SocialAnxietyStaker · 2026-03-28T22:45:47+00:00

قام لين جون يانغ، الشخصية الرئيسية في نموذج Alibaba الكبير، بنشر مقال مؤخرًا يعكس فيه مسار تقنية الذكاء الاصطناعي، مؤيدًا أن التفكير الاستنتاجي سيُستبدل بالتفكير الوكيل التفاعلي الذي يُركز على التفاعل. وأشار إلى أن الذكاء الاصطناعي المستقبلي يجب أن يكون قادرًا على التفكير والتصرف في البيئة، مع التأكيد على أن إصدار الأوامر والتفكير المستقل يمكن أن يحل بشكل فعال احتياجات الأعمال، وأن المنافسة المستقبلية ستتركز على تكامل النماذج مع أنظمة البيئة.

SocialAnxietyStaker

2026-03-28 22:45:47

إنشاء الملخص قيد التقدم

阿里巴巴（09988）
شخصية بارزة في نموذج “Qwen” لين جونيانغ، استقال فجأة في أوائل مارس، مما أثار تكهنات حول وجود خلافات بينه وبين الإدارة. ومع تراجع العاصفة، نشر لين جونيانغ مؤخرًا مقالًا بعنوان “From “Reasoning” Thinking to “Agentic” Thinking” (من “التفكير الاستدلالي” إلى “التفكير الوكلي”) على منصة التواصل الاجتماعي X، على الرغم من أن المقال يتحدث بشكل أساسي عن اتجاهات تقنية الذكاء الاصطناعي، إلا أن كلماته تخفي تأملات حول مسار تقنية “Qwen” الخاصة بـ Alibaba.

وأشار إلى أن “التفكير الاستدلالي” الذي يستهلك ببساطة القدرة الحاسوبية قد بلغ ذروته، الجزء الثاني من الذكاء الاصطناعي سيكون من نصيب “التفكير الوكلي” (Agentic Thinking) القادر على التفاعل مع البيئة الواقعية والتفكير أثناء العمل.

تحول تركيز الذكاء الاصطناعي: ماذا سيحدث بعد ذلك؟

أشار لين جونيانغ إلى أن تركيز صناعة الذكاء الاصطناعي في النصف الأول من عام 2025 سيكون بشكل رئيسي على “التفكير الاستدلالي” (Reasoning Thinking) - أي كيفية جعل النماذج الكبيرة تستهلك المزيد من الوقت والقدرة الحاسوبية للتفكير، وكيفية استخدام آليات التغذية الراجعة الأقوى لتدريب النماذج، وكيفية التحكم في هذه العمليات الاستدلالية الإضافية.

ومع ذلك، فإن السؤال الذي يجب أن تواجهه الصناعة حاليًا هو: ماذا سيحدث بعد ذلك؟

يعتقد أن الإجابة هي “التفكير الوكلي” (Agentic Thinking) بلا شك. يجب ألا يكون الذكاء الاصطناعي في المستقبل مجرد التفكير في الإجابات خلف الأبواب المغلقة، بل “التفكير من أجل اتخاذ الإجراءات”، حيث يحتاج إلى إجراء استدلال أثناء التفاعل مع البيئة، وتحديث الخطط وتصحيحها بناءً على التغذية الراجعة من العالم الواقعي.

خريطة داخليّة لـ Qwen وفشل “مسار الدمج”

كشف لين جونيانغ في المقال عن خريطة تقنية الفريق الداخلي لـ Qwen في أوائل عام 2025. في ذلك الوقت، كان العديد من الأعضاء يأملون في بناء نظام مثالي يوحد بين “التفكير” و"نموذج التعليمات". كانت فكرة هذا النظام طموحة للغاية:

الضبط الذكي: القدرة على الحكم تلقائيًا على مقدار القدرة الحاسوبية المطلوبة (مثل مستوى منخفض / متوسط / مرتفع) بناءً على الكلمات الدالة (Prompt) والسياق.

اتخاذ القرارات الذاتية: جعل النموذج يقرر بنفسه متى يجب أن يجيب بسرعة، ومتى يجب أن يفكر مليًا، أو عندما يواجه تحديات كبيرة يجب أن يستثمر فيها قدرات حاسوبية كبيرة.

قال لين جونيانغ إن Qwen3 هو أول محاولة علنية واضحة في هذا الاتجاه، حيث تم إدخال “نموذج التفكير المختلط”، مع التركيز على ميزانية التفكير القابلة للتحكم. ومع ذلك، اعترف لين جونيانغ: “من السهل الحديث عن الدمج، لكن التنفيذ صعب للغاية.”

يعتقد لين جونيانغ أن الدمج القسري سيؤدي إلى “نموذج متواضع”، حيث تكون توزيعات البيانات وأهداف السلوك وراء “نموذج التفكير” و"نموذج التعليمات" مختلفة تمامًا؛ إذا تم الدمج بالقوة، سيؤدي ذلك إلى “تصرف تفكيري” يصبح مملًا، متضخمًا وغير حاسم؛ بينما “التصرف القائم على التعليمات” سيفقد حيويته ويصبح غير موثوق به، مما يزيد من تكلفة استخدام العملاء التجاريين بشكل كبير.

في الواقع التجاري، يعتقد أن العديد من العملاء من الشركات يحتاجون حقًا إلى عمليات تعليمات نقية ذات قدرة عالية على المعالجة وبتكلفة منخفضة (مثل المعالجة الدفعة).

لذا، اختار فريق Qwen في سلسلة 2507 اللاحقة في النهاية إصدار إصدارات مستقلة من التعليمات (Instruct) والتفكير (Thinking). يعتقد لين جونيانغ أن فصل الاثنين يمكن أن يسمح للفريق بالتركيز بشكل أكثر نقاءً على حل مشكلات البيانات والتدريب الخاصة بكل منهما، وتجنب إنشاء “شخصيات تداخلية محرجة”.

استراتيجية المنافسين: “الاعتدال” و"التركيز على الأهداف" من Anthropic

على عكس مسار الانفصال الخاص بـ Qwen، اختارت مختبرات أخرى مثل Anthropic وGLM-4.5 مسار “الدمج” المعاكس تمامًا.

أشار لين جونيانغ بشكل خاص إلى منهج Anthropic (سلسلة Claude)، ويعتقد أن مسار تطورها يظهر نوعًا من الدقة والاعتدال، حيث يقوم Claude 3.7 / Claude 4 بالتناوب بين الاستدلال و"استخدام الأدوات".

التفكير القائم على الأهداف: تعتقد Anthropic أن إنتاج مسارات استدلالية طويلة جدًا لا يعني أن النموذج أكثر ذكاءً. إذا كان النموذج يتحدث مطولاً عن كل الأمور الصغيرة، فهذا في الحقيقة يمثل سوء توزيع الموارد.

العملية العملية: إذا كان الهدف هو كتابة برمجيات، يجب أن يُستخدم تفكير الذكاء الاصطناعي للتخطيط، وتفكيك المهام، وإصلاح الأخطاء، واستدعاء الأدوات؛ إذا كان يتعلق بالعمل الوكلي، يجب أن يُستخدم التفكير لتعزيز جودة تنفيذ المهام الطويلة الأمد، وليس مجرد كتابة “مقالات استدلالية” تبدو مثيرة للإعجاب.

الفرق الجوهري بين التفكير الاستدلالي والتفكير الوكلي

توقع لين جونيانغ أن “التفكير الوكلي” سيحل في النهاية محل “الاستدلال الثابت” الذي يفتقر إلى التفاعل والذي يتميز بالحديث الطويل. يجب أن يكون للنظام المتقدم حق الوصول إلى البحث، والمحاكاة، والتنفيذ، والفحص، والتصحيح لحل المشكلات بطريقة قوية وفعالة.

تغيير معايير الحكم: من “هل يمكن للنموذج حل مسألة رياضية” إلى “هل يمكن للنموذج دفع التقدم عند التفاعل مع البيئة”.

الحالات الواقعية التي يجب التعامل معها:

معرفة متى يجب التوقف عن التفكير واتخاذ الإجراءات.
اختيار الأداة التي ينبغي استدعاؤها وترتيب استخدامها.
القدرة على التعامل مع البيانات الملاحظة الصاخبة وغير المكتملة من البيئة الواقعية.
عند مواجهة الفشل، معرفة كيفية تصحيح الخطط.
الحفاظ على تماسك منطقي خلال الحوارات المتعددة واستدعاءات الأدوات المتعددة.

ثلاثة تحديات تقنية لتحقيق “التفكير الوكلي”

بصرف النظر عن الاختلافات على مستوى التطبيق، قام لين جونيانغ بتحليل أعمق للتحديات الكبيرة التي تواجه التفكير الوكلي في تطوير الطبقات الأساسية:

اختناق البنية التحتية التدريبية (انهيار كفاءة GPU): يعتبر التعلم المعزز الوكلي (RL) أكثر صعوبة بكثير من التعلم المعزز الاستدلالي البسيط. يحتاج الوكيل الذكي الاصطناعي إلى التفاعل بشكل متكرر مع أدوات خارجية (مثل المتصفح، وصندوق التنفيذ)، والانتظار لتغذية راجعة من البيئة الحقيقية قد يؤدي إلى توقف التدريب، مما يقلل بشكل كبير من استخدام GPU. يجب في المستقبل فصل “التدريب” و"الاستدلال" بشكل نظيف.

“تحطيم المكافآت” (Reward Hacking) ومخاطر الغش: عندما يمتلك النموذج صلاحيات استخدام الأدوات، فإنه يصبح من السهل عليه تعلم “الغش” للحصول على مكافآت النظام (مثل استغلال ثغرات النظام للاطلاع على معلومات مستقبلية)، بدلاً من حل المشكلات بشكل حقيقي. تزيد الأدوات من خطر التحسين الزائف، وستصبح بروتوكولات مكافحة الغش في المستقبل أمرًا حاسمًا للشركات الكبيرة.

تنسيق الوكلاء المتعددين (Multi-agent Orchestration): لن تعتمد هندسة النظام المستقبلية على نموذج واحد، بل على عدة وكلاء يعملون بشكل تعاوني. سيشمل النظام “منظمًا” مسؤولًا عن التخطيط، و"وكلاء متخصصين" في مجالات معينة، و"وكلاء فرعيين" يتعاملون مع مهام ضيقة، مما يساعد على التحكم في السياق وتجنب تلوث عملية التفكير.

الملخص: النقاط الرئيسية في المنافسة في المرحلة التالية من صناعة الذكاء الاصطناعي

في نهاية المقال، أشار لين جونيانغ إلى النقاط الرئيسية في المنافسة في المرحلة التالية من صناعة الذكاء الاصطناعي: لن تقتصر الأهداف التدريبية الأساسية المستقبلية على “النموذج” نفسه، بل ستكون على النظام الشامل “النموذج + البيئة” (الوكيل ومحيطه).

عصر الاستدلال الماضي: كانت المزايا تأتي من خوارزميات التعلم المعزز (RL) الأفضل، والإشارات الراجعة الأقوى، وخطوط التدريب القابلة للتوسع.

عصر الوكالة المستقبلية: ستعتمد المزايا على تصميم بيئي أفضل، وتكامل أكثر قربًا بين التدريب والخدمة (Train-serve integration)، وهندسة نظام أقوى، وقدرة النموذج على تحمل عواقب قراراته وتشكيل “حلقة مغلقة”.

X原文

		الحديث الساخن في مجال المال  
	
	الصين تتصدر مبيعات السيارات عالميًا، هل ستساعد أسعار النفط المرتفعة السيارات الكهربائية على التوسع خارج البلاد؟

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1