【الأسئلة المئة الأولى من علي بابا قبل الأساسية】 لين جون يانغ يكتب ألف كلمة: نماذج الذكاء الاصطناعي ستتحول إلى «تفكير الكائن الذكي» الكشف عن سبب تخلّي Qwen عن التفكير المدمج ونمط الأوامر

SocialAnxietyStaker · 2026-03-29T10:04:02+00:00

قام لين جون يانغ، الشخصية الرئيسية في نموذج Alibaba الكبير، بنشر مقال مؤخرًا يعكس فيه مسار تقنية الذكاء الاصطناعي، مؤيدًا أن التفكير الاستنتاجي سيُستبدل بالتفكير الوكيل التفاعلي الذي يُركز على التفاعل. وأشار إلى أن الذكاء الاصطناعي المستقبلي يجب أن يكون قادرًا على التفكير والتصرف في البيئة، مع التأكيد على أن إصدار الأوامر والتفكير المستقل يمكن أن يحل بشكل فعال احتياجات الأعمال، وأن المنافسة المستقبلية ستتركز على تكامل النماذج مع أنظمة البيئة.

SocialAnxietyStaker

2026-03-29 10:04:02

إنشاء الملخص قيد التقدم

阿里巴巴（09988） الشخصية الرئيسية في نموذج Qwen الكبير، لين جون يانغ، غادر فجأة في أوائل مارس، مما أثار تكهنات حول حدوث اختلافات بينه وبين الإدارة. مع تراجع هذا الجدل، قام لين جون يانغ مؤخرًا بنشر مقال بعنوان “From “Reasoning” Thinking to “Agentic” Thinking” (من “التفكير الاستدلالي” إلى “التفكير الوكالي”) على منصة التواصل الاجتماعي X، وعلى الرغم من أن المقال يتحدث بشكل رئيسي عن اتجاهات تقنية الذكاء الاصطناعي، إلا أنه يحتوي على تأملات حول مسار تقنية Qwen الخاصة بشركة علي بابا.

وأشار إلى أن “التفكير الاستدلالي” الذي يستهلك ببساطة القدرة الحاسوبية قد بلغ ذروته، الجزء الثاني من الذكاء الاصطناعي سيعود لأولئك القادرين على التفاعل مع البيئة الواقعية، والتفكير أثناء العمل “التفكير الوكالي” (Agentic Thinking).

تحول تركيز الذكاء الاصطناعي: ماذا سيحدث بعد ذلك؟

وأشار لين جون يانغ إلى أن تركيز صناعة الذكاء الاصطناعي في النصف الأول من عام 2025 سيكون أساسًا على “التفكير الاستدلالي” (Reasoning Thinking) - وهو كيفية جعل النماذج الكبيرة تستهلك المزيد من الوقت والقدرة الحاسوبية للتفكير، وكيفية استخدام آليات ردود فعل أقوى لتدريب النماذج، وكيفية التحكم في هذه العمليات الاستدلالية الإضافية.

ومع ذلك، فإن السؤال الذي يجب أن يواجهه القطاع الآن هو: ماذا سيحدث بعد ذلك؟

يعتقد أن الإجابة هي بلا شك “التفكير الوكالي” (Agentic Thinking). يجب أن لا يكون الذكاء الاصطناعي في المستقبل مجرد التفكير في تقديم الإجابات، بل “التفكير من أجل اتخاذ الإجراءات”، ويجب أن يتم التفكير أثناء التفاعل مع البيئة، وتحديث الخطط وتصحيحها بناءً على ردود الفعل المستمدة من العالم الحقيقي.

المخطط الداخلي لـ Qwen وفشل “خطة الدمج”

كشف لين جون يانغ في مقاله لأول مرة عن المخطط التقني الداخلي لفريق Qwen في أوائل عام 2025. في ذلك الوقت، كان العديد من الأعضاء يأملون في بناء نظام مثالي يمكنه توحيد نماذج “التفكير” و"التوجيه". كانت فكرة هذا النظام طموحة للغاية:

تنظيم ذكي: القدرة على الحكم تلقائيًا على كمية القدرة الحاسوبية اللازمة بناءً على الكلمات الرئيسية (Prompt) والسياق (مشابهة للدرجات المنخفضة / المتوسطة / العالية).

اتخاذ القرارات الذاتية: السماح للنموذج بتحديد متى يجب أن يرد بسرعة، ومتى يجب أن يفكر بعمق، أو استخدام طاقة حاسوبية كبيرة عند مواجهة تحديات.

قال لين جون يانغ إن Qwen3 هو بالضبط المحاولة العامة الأكثر وضوحًا في هذا الاتجاه، حيث تم إدخال “نموذج التفكير المختلط”، مع التأكيد على ميزانية التفكير القابلة للتحكم. ومع ذلك، اعترف لين جون يانغ: “الحديث عن الدمج سهل، لكن التنفيذ صعب للغاية.”

يعتقد لين جون يانغ أن الدمج القسري سيؤدي إلى نماذج “متوسطة”، حيث تختلف توزيعات البيانات وأهداف السلوك وراء “نموذج التفكير” و"نموذج التوجيه" تمامًا؛ إذا تم الدمج قسريًا، سيؤدي ذلك إلى “تصرفات التفكير” التي تصبح مطولة، ومرتفعة الوزن، وغير حاسمة؛ بينما “تصرفات التوجيه” ستفقد حسمها، وتصبح غير موثوقة، مما يزيد بشكل كبير من تكاليف الاستخدام للعملاء التجاريين.

في الواقع التجاري، يعتقد أن العديد من العملاء من الشركات يحتاجون حقًا إلى عمليات توجيهية نقية ذات سعة عالية، وتكلفة منخفضة، وقابلية تحكم عالية (مثل المعالجة الدفعة).

لهذا السبب، اختار فريق Qwen في السلسلة 2507 التالية في النهاية إصدار نسخ توجيهية (Instruct) وتفكير (Thinking) مستقلة. يعتقد لين جون يانغ أن فصل الاثنين يمكن أن يساعد الفريق على التركيز بوضوح أكبر على حل مشاكلهما الخاصة بالبيانات والتدريب، وتجنب ظهور “شخصيات محورية محرجة”.

استراتيجية المنافسين: “الاعتدال” و"التوجه نحو الأهداف" من Anthropic

على عكس مسار الفصل الخاص بـ Qwen، اختارت مختبرات أخرى مثل Anthropic وGLM-4.5 “مسار التكامل” المعاكس تمامًا.

أشار لين جون يانغ بشكل خاص إلى طريقة Anthropic (سلسلة Claude)، ويعتقد أن مسارها التطوري يظهر نوعًا من الدقة والاعتدال، حيث تتناوب Claude 3.7 / Claude 4 بين الاستدلال و"استخدام الأدوات".

تفكير موجه نحو الأهداف: تعتقد Anthropic أن إنتاج مسارات استدلالية طويلة جدًا لا يعني أن النموذج أكثر ذكاءً. إذا كان النموذج يكتب مطولات حول كل شيء، فهذا في الواقع يدل على سوء توزيع الموارد.

العملية أولاً: إذا كان الهدف هو كتابة الكود، يجب أن يتم استخدام تفكير الذكاء الاصطناعي في التخطيط، وتفكيك المهام، وإصلاح الأخطاء، واستدعاء الأدوات؛ إذا كان الهدف هو العمل كوكيل، فيجب أن يُستخدم التفكير في تحسين جودة تنفيذ المهام طويلة الأمد، بدلاً من مجرد كتابة “مقالات استدلالية” تبدو مثيرة للإعجاب.

الفرق الأساسي بين التفكير الاستدلالي والتفكير الوكالي

يتوقع لين جون يانغ أن “التفكير الوكالي” سيحل في النهاية محل “التفكير الاستدلالي” الذي يفتقر إلى التفاعل والمطولات الطويلة. يجب أن يكون لدى النظام المتقدم حق الوصول للبحث، والمحاكاة، والتنفيذ، والتحقق، والتصحيح، لحل المشكلات بطريقة قوية وفعالة.

تغير معايير الحكم: من “هل يمكن للنموذج حل المسألة الرياضية” إلى “هل يمكن للنموذج دفع التقدم عند التفاعل مع البيئة”.

المشكلات الواقعية التي تحتاج إلى معالجة:

القدرة على تحديد متى يجب التوقف عن التفكير واتخاذ الإجراءات.
اختيار الأداة التي يجب استخدامها وترتيب استخدامها.
القدرة على التعامل مع البيانات الملاحظة الصاخبة وغير الكاملة من البيئة الواقعية.
عند مواجهة الفشل، القدرة على تصحيح الخطط.
الحفاظ على التماسك المنطقي في محادثات متعددة ودعوات متعددة للأدوات.

ثلاثة تحديات تقنية لتحقيق “التفكير الوكالي”

بالإضافة إلى الاختلافات في مستوى التطبيق، قام لين جون يانغ بتحليل التحديات الكبيرة في تطوير التفكير الوكالي على المستوى الأساسي:

اختناق بنية التدريب (انهيار كفاءة GPU): التعلم المعزز الوكالي (RL) أصعب بكثير من التعلم المعزز الاستدلالي البسيط. يحتاج الوكيل الذكي إلى التفاعل بشكل متكرر مع الأدوات الخارجية (مثل المتصفحات، وصناديق التنفيذ)، والانتظار للحصول على ردود الفعل من البيئة الحقيقية سيؤدي إلى توقف التدريب، مما يقلل بشكل كبير من استخدام GPU. في المستقبل، يجب فصل “التدريب” و"الاستدلال" بشكل نظيف.

“اختراق المكافآت” ومخاطر الغش: عندما يحصل النموذج على إذن استخدام الأدوات، فإنه من السهل أن يتعلم “الغش” للاحتيال على النظام للحصول على المكافآت (مثل استغلال ثغرات النظام لرؤية المعلومات المستقبلية)، بدلاً من حل المشكلة فعليًا. تزيد الأدوات من خطر التحسين الزائف، وستكون بروتوكولات مكافحة الغش في المستقبل مفتاحًا للشركات الكبرى.

تنسيق الوكلاء المتعددين (Multi-agent Orchestration): لن تعتمد هندسة الأنظمة المستقبلية على نموذج واحد، بل ستتكون من عدة وكلاء يتخصص كل منهم في وظيفة معينة. ستشمل الأنظمة “المنظم” المسؤول عن التخطيط، و"وكلاء الخبراء" المتخصصين في مجالات معينة، و"الوكلاء الفرعيين" الذين يتعاملون مع المهام الضيقة، مما يساعد في ضبط السياق وتجنب تلوث عملية التفكير.

تلخيص: نقاط التركيز التنافسية في المرحلة التالية لصناعة الذكاء الاصطناعي

في نهاية مقاله، أشار لين جون يانغ إلى نقاط التركيز التنافسية في المرحلة التالية لصناعة الذكاء الاصطناعي: سيكون هدف التدريب الأساسي في المستقبل ليس فقط “النموذج” بحد ذاته، بل النظام الشامل لـ “النموذج + البيئة” (الوكيل وما يحيط به من روابط).

عصر الاستدلال الماضي: كانت المزايا تأتي من خوارزميات التعلم المعزز الأفضل، وإشارات ردود الفعل الأقوى، وخطوط الإنتاج القابلة للتوسع.

عصر الوكالة المستقبلية: ستعتمد المزايا على تصميم بيئي أفضل، وتكامل أكثر إحكامًا بين التدريب والخدمة (Train-serve integration)، وهندسة نظام أقوى، وقدرة النموذج على تحمل عواقب قراراته وتشكيل “حلقة مغلقة”.

X原文

		财经济Hot Talk
	





	الصين تتصدر مبيعات السيارات عالميًا  هل تعزز أسعار الوقود المرتفعة من تصدير السيارات الكهربائية؟

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1