تحويل ماسك لورقة Kimi يثير نقاشاً كبيراً في وادي السيليكون، ما هو ساحة المعركة التالية لـ Attention؟

SnapshotLaborer · 2026-03-20T13:44:26+00:00

في 16 مارس 2026، نشرت فرقة Kimi ورقة بحثية تسمى "Attention Residuals" على arXiv، وسرعان ما خرجت الأمور عن السيطرة. أعاد ماسك مشاركتها، وعلق Karpathy قائلاً "لم نأخذ عنوان 'Attention is All You Need' على محمل جد بعد"، والمؤسس المشارك السابق في OpenAI جيري توريك أضاف أربع كلمات فقط، "التعلم العميق 2.0". ورقة بحثية حول الهندسة المعمارية من فريق صيني تثير هذا المستوى من النقاش في وادي السيليكون، وآخر مرة حدث ذلك يمكن أن يعود إلى DeepSeek-V3.لكن بعيداً عن الضجة، معظم النقاشات توقفت عند مستوى "قامت Kimi بعمل شيء جديد، والكبار متحمسون جداً". ما تم تجاهله هو أنه في نفس اليوم، بايت دانس

SnapshotLaborer

2026-03-20 13:44:26

في 16 مارس 2026، قام فريق Kimi بنشر ورقة بحثية بعنوان Attention Residuals على arXiv، ثم سرعان ما خرج الأمر عن السيطرة. قام ماسك بإعادة تغريدها، وعلق كارباتي قائلاً: “لم نأخذ حقًا عنوان Attention is All You Need على محمل الجد”، وردّ جيري تويورك، أحد مؤسسي OpenAI السابقين، بكلمة واحدة: deep learning 2.0. إنّ ظهور ورقة بنية من فريق صيني في سيليكون فالي يثير هذا المستوى من النقاش، ربما يعود آخر مرة إلى DeepSeek-V3.

لكن، رغم الضجة، يظل معظم النقاش عند مستوى “Kimi أبدع شيئًا جديدًا، والكبار متحمسون”. ما يُغفل هو أنه في نفس اليوم، أصدر فريق Seed من شركة ByteDance وجامعة وسط الصين معًا ورقة أخرى بعنوان Mixture-of-Depths Attention (MoDA)، تعالج نفس المشكلة تمامًا، ولكن بأسلوب مختلف تمامًا. وخلال نفس الأسبوع، قدمت جامعة نانجينغ، بقيادة ديلخات موهتر، ومعهد MPI بقيادة شوي وي ليو، ورقة ثالثة بعنوان “متى يقلل التباين من لعنة العمق في نماذج اللغة الكبيرة” (LLMs)، قدمت من الناحية النظرية تقريرًا دقيقًا عن الحالة المرضية.

ظهور ثلاث أوراق بشكل مكثف، واستهدافها لنفس الهدف، ليس صدفة. لقد وصل مشكلة هيكلية غُفِل عنها منذ ما يقرب من عقد من الزمن إلى نقطة حرجة لا بد من حلها.

المشكلة ليست في بعد التسلسل في آلية الانتباه. على مدى السنوات القليلة الماضية، تطورت آلية الانتباه عبر عدة أجيال، من الانتباه متعدد الرؤوس إلى استعلامات مجمعة، ثم إلى MLA في DeepSeek، وأنواع مختلفة من التباين، وكل جيل يهدف إلى تحسين كيفية رؤية الرموز لبعضها البعض. هذه سباق تسلح مثير، لكنه يخفي حقيقة أن طريقة نقل المعلومات بين الطبقات، منذ نشر ورقة Transformer في 2017 وحتى اليوم، كانت دائمًا واحدة. وهي الاتصال المتبقي (Residual Connection): h = h + f(h)، عملية جمع بدون أي معلمات تعلم.

كل مخرجات الطبقات السابقة تُجمع بشكل متساوٍ. لا اختيار، لا نسيان، لا تعلم. يُلقى مساهمة كل طبقة بشكل متساوٍ في تدفق التبقي، سواء كانت تلتقط ميزات مهمة أو ضوضاء.

الاتصال المتبقي هو أنجح “حل مؤقت” في تاريخ التعلم العميق.

أكثر الحلول نجاحًا مؤقتًا

اقترح كاي مين هو في 2015 في ResNet فكرة الاتصال المتبقي. كانت الفكرة بسيطة جدًا: عندما يصبح الشبكة عميقة أكثر من اللازم، تتوقف عن التدريب بسبب تلاشي التدرجات، وتكاد تتوقف المعلمات العميقة عن التحديث. الحل هو إضافة “طريق سريع” لكل طبقة، بحيث يمكن للمدخل أن يتخطى تلك الطبقة مباشرة إلى المخرج. حتى لو لم تتعلم تلك الطبقة شيئًا، فإن المعلومات والتدرجات يمكن أن تمر عبر هذا الطريق المختصر. النتيجة كانت فورية، حيث نقلت الشبكة من عشرين طبقة إلى أكثر من مئة. بعد عامين، ظهر Transformer، واحتُفظ بالاتصال المتبقي كما هو، ومنذ ذلك الحين لم يُغير.

لم يُحاول أحد. جربت نسخ مثل ReZero، FixUp، Highway Network، جعلت أوزان الاتصال المتبقي قابلة للتعلم. لكن لم يُصبح أي منها الخيار الرئيسي، لأن الاتصال المتبقي كان سهل الاستخدام جدًا. بسيط، مستقر، ولا يكلف تقريبًا حسابات إضافية، وفي حجم النماذج آنذاك، لم تظهر آثاره الجانبية بعد.

44% من الطبقات تعمل بشكل فارغ

ما هي الآثار الجانبية؟ في بداية 2025، نشرت جامعة ويست ليك، وEmory، وفريق شوي وي ليو من MPI دراسة بعنوان “لعنة العمق”، وفي مارس من نفس العام، قدم فريق جامعة نانجينغ بقيادة ديلخات موهتر، ورقة بعنوان “متى يقلل التباين من لعنة العمق في نماذج اللغة الكبيرة”، قدمت تشخيصًا كميًا دقيقًا. تحت البنية المعمارية السائدة حاليًا، أصبحت التحويلات العميقة تقترب أكثر فأكثر من الهوية. أي أن المدخلات تخرج كما هي، وهذه الطبقة لا تؤدي وظيفة حقيقية.

الأرقام تظهر أن الوضع سيء. الباحثون استخدموا “درجة الفائدة” لقياس مدى جدوى كل طبقة في إجراء تحويلات ذات معنى. في نموذج من 12 طبقة، كل الطبقات تعمل. في 16 طبقة، ثلاث طبقات غير فعالة. في 24، تسع طبقات غير فعالة. في 32، 14 طبقة غير فعالة، أي أن 44% من الطبقات تكاد لا تتعلم شيئًا. زاد عدد المعلمات من 900 مليون إلى 2.3 مليار، بزيادة قدرها 156%، لكن عدد الطبقات الفعالة زاد فقط من 12 إلى 18.

تشخيص كمي للعنة العمق — فعالية الطبقات مع زيادة حجم النموذج

السبب مرتبط مباشرة بطريقة عمل الاتصال المتبقي. كل مخرجات الطبقة تُضاف إلى “المسار الرئيسي” عبر الاتصال المتبقي. مع زيادة عدد الطبقات، تتراكم الإشارات على هذا المسار، وتصبح أكبر تدريجيًا (يمكن تصورها كـ"مستوى الصوت الخلفي" الذي يزداد)، لكن كل إشارة جديدة تُنتج في كل طبقة لها حجم محدود. مع العمق، تُغمر الإشارات الجديدة في الضوضاء الخلفية، ويصبح المدخل والمخرج تقريبًا متطابقين، وتصبح تلك الطبقة بلا فائدة.

الاتصال المتبقي حل مشكلة “تمرير التدرجات”، لكنه خلق مشكلة “جعل العمق ذا معنى”.

في عصر النماذج الكبيرة، يكون هذا الثمن باهظًا جدًا. طبقة واحدة تتطلب مئات الملايين من عمليات الفلوت. نموذج مكون من 128 طبقة، وإذا كانت 44% من الطبقات غير فعالة، فإن حوالي ستين طبقة من الحسابات تُهدر. المجتمع استثمر سنوات في تحسين كفاءة الاستدلال، من خلال التكميم، والتقطير، والتقليم، والانتباه التبايني، وضغط ذاكرة KV — كلها تركز على تحسين “الحساب المفيد”.

أكبر ثقب في الكفاءة ليس في تعقيد الانتباه من الدرجة الثانية، بل في عملية جمع بسيطة لم تتغير منذ 2015.

إضافة البعد العميق للانتباه

اختارت فريق Seed من ByteDance مسارًا مختلفًا. لم يغيروا الاتصال المتبقي، بل أضافوا بعدًا ثانيًا لآلية الانتباه نفسها.

الانتباه في Transformer القياسي يعمل فقط على بعد التسلسل، أي أن كل رمز في الطبقة الحالية يراقب رموزًا أخرى في نفس الطبقة من خلال قيم المفاتيح والقيم (KV). التغيير الذي أدخله MoDA بسيط جدًا: يضيف رموز KV من الطبقات السابقة إلى مجموعة المرشحين للانتباه. عندما يحسب رمز في الطبقة L، يمكنه أن يرى ليس فقط الرموز في نفس الطبقة، بل أيضًا رموز KV من الطبقة 1 حتى L-1. يتم توحيد البعدين، التسلسلي والعميق، عبر نفس عملية softmax.

الفكرة ليست معقدة، لكن الصعوبة تكمن في تنفيذها دون إبطاء السرعة.

آلية الانتباه ذات البعدين في MoDA — توحيد التوزيع عبر البعدين في softmax واحد

إضافة جميع رموز KV من الطبقات السابقة إلى الانتباه، سيؤدي إلى انفجار في الحسابات. في نموذج من 32 طبقة، الطبقة 32 ستحتاج إلى النظر في جميع رموز KV من 31 طبقة سابقة، مما يزيد طول السلسلة المكافئ بمقدار 32 مرة. الحل الذي يتبناه MoDA هو استراتيجية “إعادة ترتيب المجموعات”، حيث يختار فقط بعض رموز KV من الطبقات السابقة، ويعيد ترتيبها إلى ذاكرة متسلسلة بحيث يمكن لوحدة المعالجة الرسومية (GPU) أن تنفذ عمليات المصفوفة بكفاءة.

بالتحديد، أدخل MoDA آلية “تدفق العمق”. بدلاً من أن تنظر كل طبقة إلى جميع الطبقات السابقة، تستخدم مسارًا قابلًا للتعلم لاختيار الطبقات الأكثر صلة. يشبه ذلك فكرة “خبراء المزيج” (Mixture-of-Experts) — لا يتم تفعيل جميع الخبراء، بل يتم اختيار الخبراء المطلوبين بشكل ديناميكي. الاختلاف هنا أن “الخبراء” هم طبقات ذات أعماق مختلفة من التاريخ.

عند طول سلسلة 64 ألف، تصل كفاءة عملية MoDA إلى 97.3% من FlashAttention-2. ومع إضافة آلية الانتباه العميق، يكون التباطؤ أقل من 3%.

استراتيجية إعادة الترتيب — نقل رموز KV من الطبقات السابقة المخزنة في الذاكرة إلى ذاكرة متسلسلة

على نموذج بــ 1.5 مليار معلمة (باستخدام خطة تدريب OLMo2)، حقق MoDA في متوسط أداء أعلى بـ 2.11% على 10 مهام فرعية، مع زيادة حسابية إضافية قدرها 3.7%. قد لا يبدو ذلك كبيرًا، لكنه تحسين في البنية المعمارية، لا يعتمد على مزيد من البيانات أو تدريب أطول. والأهم أن تأثير MoDA يتزايد مع حجم النموذج — فكلما زاد الحجم، زادت مشكلة التدهور العميق، وزادت فاعلية إصلاح MoDA.

مقارنة أداء MoDA على 10 مهام فرعية

الأكثر إثارة للاهتمام هو تفاعل MoDA مع تقنية Post-Norm. معظم نماذج اللغة الكبيرة تستخدم تقريبًا Pre-Norm (تطبيع قبل الانتباه)، لأن Post-Norm (تطبيع بعد الانتباه) على الرغم من أنه نظريًا أكثر كفاءة، إلا أن تدريبه غير مستقر. آلية KV العميقة في MoDA توفر مسارًا إضافيًا للتدرجات، مما يقلل من مشكلة عدم الاستقرار في Post-Norm.

التركيبة بين MoDA وPost-Norm تفتح احتمالات جديدة — ربما يمكن استعادة التوازن الذي أُجبرنا على التخلي عنه سابقًا، بسبب الحاجة إلى استقرار التدريب.

الفرق في خسارة التحقق بين Pre-Norm وPost-Norm بعد إضافة KV العميق

لا تبتكر طرقًا جديدة، بل تعيد ترميم الطرق القديمة

لم يُغير MoDA الاتصال المتبقي، بل اختار أن يفتح مسارًا آخر بجانبها. في نفس اليوم، قدم فريق Kimi ورقة بعنوان Attention Residuals (AttnRes)، اتخذت مسارًا أكثر مباشرة، حيث بدأت مباشرة في تعديل الاتصال المتبقي نفسه.

الطريقة التقليدية للاتصال المتبقي بسيطة جدًا: تجمع مخرجات جميع الطبقات السابقة بشكل متساوٍ، وتُضاف إلى المسار الرئيسي. لا يوجد اختيار، لا نسيان. في المقابل، استبدل AttnRes هذا الجمع الثابت بعملية انتباه، حيث تستخدم كل طبقة حالتها الخاصة كمُستعلم، وتختار من مخرجات الطبقات السابقة بناءً على الانتباه، لتحديد أي الميزات من الطبقات السابقة مفيدة، وما هي أوزانها.

الارتباط المتبقي يتحول من صيغة ثابتة إلى مسار ديناميكي قابل للتعلم.

الفكرة الأساسية في AttnRes — استبدال الجمع المتساوي بآلية انتباه

التكلفة هي أن كل طبقة تحتاج إلى تشغيل عملية انتباه عميق إضافية، وهو أمر مكلف. استخدم فريق Kimi استراتيجية تقسيم إلى كتل (Block AttnRes) للتحكم في التكاليف، حيث يقسمون الطبقات إلى عدة كتل، ويقومون بتنفيذ انتباه عميق كامل داخل كل كتلة، مع التركيز على تمثيل التجميع على مستوى الكتلة فقط بين الكتل.

تم دمج AttnRes بالفعل في نموذج Kimi Linear (بإجمالي 48 مليار معلمة / 3 مليارات تفعيل)، وتم تدريبه مسبقًا على 1.4 تريليون رمز، وأثبتت النتائج أن الأداء ثابت عبر نماذج بأحجام مختلفة. تم التغطية على هذه الورقة بشكل واسع، ولم يتم التوسع في التفاصيل التقنية هنا. السبب في ذكرها هنا هو المقارنة مع مسار MoDA.

مخطط التدريب وتجارب التبديد في AttnRes

السبب الجذري للمسارين هو نفسه: المعلومات السطحية التي تحصل عليها الطبقات العميقة تتعرض للتخفيف المتكرر عبر التحديثات المتبقية. لكن نقطة الاختلاف هي أن MoDA لم يلمس الاتصال المتبقي، بل أضاف بعدًا عميقًا لآلية الانتباه، بحيث يمكن للطبقات العميقة أن تتجاوز تدفق التبقي وتأخذ مباشرة الميزات الأصلية للطبقات السطحية. أما AttnRes، فقام مباشرة بتعديل الاتصال المتبقي، وحول الجمع المتساوي إلى وزن انتباه. أحدهما “يختار مسارًا آخر”، والآخر “يُجدد المسار القديم”.

ظهور الورقتين في نفس اليوم، مع اختلاف المسارات، لكن الهدف واحد. هذا ليس صدفة. مشكلة العمق في الانتباه أصبحت من قضايا المجتمع البحثي، والاختلاف هو من أي زاوية يتم التعامل معها.

توافق أداء AttnRes عبر نماذج مختلفة الحجم

نسيان الهياكل الداعمة التي تم إزالتها

بالعودة إلى السؤال الأصلي، لماذا استغرق الأمر حتى 2026 ليُعطى مشكلة التوقف العميق اهتمامًا جديًا؟

لأن الاتصال المتبقي كان مفيدًا جدًا. حلّ المشكلة الأكثر إلحاحًا آنذاك (تلاشي التدرجات)، وكان تكلفته معقولة (تدهور العمق في النماذج الصغيرة غير واضح)، ولم تكن البدائل ناضجة بعد (ReZero، Highway Network لم تثبت فعاليتها على نطاق واسع). لذلك، لم يكن هناك دافع لتغييره. لم يكن خيارًا مصممًا عمدًا، بل كان حلًا مؤقتًا نُسي، وكأنه دعامة بناء، تُركت بعد إتمام البناء، وظن الجميع أنها جدار حمائي.

تأثير التخفيف في الإشارة عبر الاتصال المتبقي — كلما زاد العمق، أصبح من الأصعب سماع الإشارات الجديدة

لكن، ما جعل هذا المشكلة غير واضحة هو أن آلية الانتباه كانت تعمل على بعد واحد فقط لسنوات طويلة. خلال الثماني سنوات الماضية، تطورت جميع أشكال الانتباه — متعدد الرؤوس، الاستعلامات المجزأة، التباين، الانتباه الخطي — كلها كانت تركز على بعد التسلسل. كيف يرى الرموز بعضها البعض، هذا تم تحسينه مرارًا وتكرارًا. لكن، كيف ترى الطبقات بعضها البعض؟ هذا السؤال لم يُطرح أبدًا. البعد العميق كان دائمًا منطقة عمياء للانتباه.

كل من MoDA وAttnRes فتحا هذه المنطقة العمياء من زوايا مختلفة. MoDA أضاف بعدًا ثانيًا للانتباه، ليعمل في الاتجاهين الأفقي والعمودي في آن واحد. وAttnRes حول نقل المعلومات بين الطبقات إلى عملية انتباه بحد ذاتها. الطريقان مختلفان، لكنهما يتفقان على استنتاج واحد: الانتباه لا ينبغي أن يقتصر على الاتجاه الأفقي، بل يجب أن يراقب أيضًا الاتجاه العمودي.

امتداد هذا الاستنتاج أكبر من الورقتين أنفسهما. لا تزال هناك العديد من الآليات الثابتة في Transformer تعمل على بعد واحد فقط. كل طبقة يجب أن تُنفذ بالتسلسل، ولا يمكن تخطيها. كل رأس انتباه يُحسب بشكل مستقل ويُدمج، دون تنسيق ديناميكي بين الرؤوس. وكل رمز يمر عبر نفس المسار الحسابي، سواء كان سهلًا أو صعبًا. كانت هذه التصاميم في الأصل من أجل جعل التدريب ممكنًا، وضمان التوصل إلى تقارب.

تطورات التعلم العميق خلال العشر سنوات الماضية، إذا عُمّمت على أعلى مستوى، فهي تتلخص في شيء واحد: إعادة الكثير من القرارات الهيكلية من يد المصمم البشري إلى النموذج نفسه. استبدال النوى المجمعة يدويًا بالانتباه القابل للتعلم. استبدال الترميزات الموضعية الثابتة بترميزات دوارة قابلة للتعلم. استبدال التوزيع الثابت للخبراء برواية قابلة للتعلم. والآن، بدأ نمط تدفق المعلومات عبر البعد العميق يُترك للانتباه ليحدد مساره بنفسه.

قال كارباتي إننا لم نأخذ حرفية عنوان “Attention is All You Need” على محمل الجد. ربما كان محقًا، لكن ليس بمعنى أن “الانتباه يكفي”، بل بمعنى أن “الانتباه لم يُستخدم بعد بشكل كافٍ”. لقد تطور عبر أجيال كثيرة على بعد التسلسل، لكنه بدأ للتو في بعد العمق.

العمق هو المعركة التالية للانتباه.

DEEPSEEK14.76%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryGlobalCelebration
16.72M درجة الشعبية
#
TradFiIntroducesMultiLeverageFirst
560.92K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
14.99K درجة الشعبية
#
CryptoMarketVolatility
1.13M درجة الشعبية
#
CreatorLeaderboard
31.49K درجة الشعبية

Gate Fun الساخن
عرض المزيد

1
OPDK
Hoods
القيمة السوقية:$0.1عدد الحائزين:0
0.00%
2
$PIKA
Pikachu
القيمة السوقية:$2.35Kعدد الحائزين:0
0.00%
3
XNHUSDT
小男孩
القيمة السوقية:$2.36Kعدد الحائزين:0
0.00%
4
Skyhor
skyhorse
القيمة السوقية:$2.34Kعدد الحائزين:1
0.00%
5
MDOG
Mars Dog
القيمة السوقية:$0.1عدد الحائزين:1
0.00%

تثبيت

خريطة الموقع

تحويل ماسك لورقة Kimi يثير نقاشاً كبيراً في وادي السيليكون، ما هو ساحة المعركة التالية لـ Attention؟

أكثر الحلول نجاحًا مؤقتًا

44% من الطبقات تعمل بشكل فارغ

تشخيص كمي للعنة العمق — فعالية الطبقات مع زيادة حجم النموذج

إضافة البعد العميق للانتباه

آلية الانتباه ذات البعدين في MoDA — توحيد التوزيع عبر البعدين في softmax واحد

استراتيجية إعادة الترتيب — نقل رموز KV من الطبقات السابقة المخزنة في الذاكرة إلى ذاكرة متسلسلة

مقارنة أداء MoDA على 10 مهام فرعية

الفرق في خسارة التحقق بين Pre-Norm وPost-Norm بعد إضافة KV العميق

لا تبتكر طرقًا جديدة، بل تعيد ترميم الطرق القديمة

الفكرة الأساسية في AttnRes — استبدال الجمع المتساوي بآلية انتباه

مخطط التدريب وتجارب التبديد في AttnRes

توافق أداء AttnRes عبر نماذج مختلفة الحجم

نسيان الهياكل الداعمة التي تم إزالتها

تأثير التخفيف في الإشارة عبر الاتصال المتبقي — كلما زاد العمق، أصبح من الأصعب سماع الإشارات الجديدة

المواضيع الرائجة

Gate13thAnniversaryGlobalCelebration

TradFiIntroducesMultiLeverageFirst

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

CreatorLeaderboard

Gate Fun الساخن

OPDK

Hoods

$PIKA

Pikachu

XNHUSDT

小男孩

Skyhor

skyhorse

MDOG

Mars Dog

تثبيت