ني يا يو: موجهة لتطبيقات الذكاء على الطرف، شركة Guoke Micro تطور NPU وأدوات سلسلة أكثر كفاءة

robot
إنشاء الملخص قيد التقدم

شراء الأسهم فقط يتعين عليك الاطلاع على تقارير محللي Ginjilin، وهي تقارير موثوقة، احترافية، في الوقت المناسب، وشاملة، تساعدك على اكتشاف فرص الموضوعات ذات الإمكانات!

(المصدر: Ai Jiwei)

في 1 أبريل، خلال منتدى التقنيات العمودية «الذكاء الاصطناعي الطرفي ورقائق الحوسبة» ضمن قمة قادة صناعة IC في الصين لعام 2026، ألقى السيد Ni Yayu، مدير قسم خوارزميات الذكاء الاصطناعي في Guokewei، محاضرة بعنوان《FlashAttention-4: تصميم نمط خط أنابيب لوحدة معالجة NPU للاستدلال للجيل الجديد من النماذج الكبيرة》。

ومع تسارع النماذج الكبيرة في الوصول إلى التطبيق الصناعي، أصبحت كفاءة الاستدلال وعرض نطاق الذاكرة واستهلاك طاقة النظام عوائق رئيسية أمام النشر على الأجهزة الطرفية. وبالأخص في ظل التطور المستمر للـ Transformer والنماذج اللغوية الكبيرة، فإن التنفيذ الفعّال لآلية الانتباه(Attention)قد أصبح اختراقًا مهمًا في تحسين بنية الرقائق وسلسلة الأدوات.

وأوضح Ni Yayu أن Guokewei تركز على الاستكشاف التطبيقي للتقنيات المتقدمة مثل FlashAttention على منصات NPU، بما يدفع إلى بناء بنية NPU وسلسلة أدوات أكثر ملاءمة للنشر للإنتاج الضخم على الأجهزة الطرفية، لتوفير دعم حوسبي عالِ الأداء لسيناريوهات مثل القيادة الذاتية، والحوسبة الطرفية، والأجهزة الذكية، وAIGC وغيرها.

تحديات تواجه «الإصدار كامل المواصفات» من FlashAttention عند نشر NPU

باعتبارها إحدى البُنى الحسابية الأساسية ضمن النماذج الكبيرة، غالبًا ما تواجه آلية الانتباه مشاكل مثل ارتفاع تكلفة الوصول إلى الذاكرة وقصور كفاءة خط الأنابيب أثناء التشغيل الفعلي. وتوفر فكرة FlashAttention مسارًا جديدًا لمعالجة هذه المشكلة.

FlashAttention هي خوارزمية انتباه دقيقة وسريعة وكفؤة في استهلاك الذاكرة تم اقتراحها من قِبل Tri Dao وآخرين من جامعة ستانفورد في عام 2022. وتقوم بإعادة بناء مكافئة لعملية حساب الانتباه؛ إذ تحافظ على خطوات الحساب الوسيطة في ذاكرة التخزين المؤقت على الشريحة من خلال الحساب على شكل كتل، وSoftmax عبر الإنترنت، وإعادة الحساب، وخط أنابيب غير متزامن، ما يقلل ضغط عرض نطاق الوصول للذاكرة الخارجية ويُحسن كفاءة الاستدلال بشكل ملحوظ.

في منتصف مارس الماضي، تم الإعلان رسميًا عن إصدار FlashAttention 4.0. وأشار Ni Yayu إلى أن FlashAttention تطورت من 1.0 إلى 4.0 مع استمرار تعزيز القدرات في التوازي ودعم التسلسلات الطويلة والحساب منخفض الدقة والتنفيذ غير المتزامن وغيرها. غير أنه مقارنةً بوحدات GPU، لا تزال لدى NPU الحالية فجوات في قدرات مثل قوة حساب وحدات المتجهات، وترتيب خطوط الأنابيب غير المتزامنة، والجدولة الديناميكية، والسياقات الطويلة جدًا. وذكر Ni Yayu أنه لتحقيق «إصدار كامل المواصفات» من FlashAttention، يلزم إجراء تصميم متناسق حول خط الأنابيب الحسابي وإعادة استخدام البيانات وعرض نطاق النظام.

Guokewei NPU 4.0: بناء وحدة استدلال أكثر كفاءة

منذ عام 2020، واصلت Guokewei الاستثمار المستمر في التطوير المستقل لـ NPU، مكوّنة مسار تطوري من GKNPU 1.0 إلى 4.0، مع ترقية قدرات المنتج نحو قدرة حسابية أعلى وتغطية نماذج أوسع ونسبة كفاءة طاقة أفضل. حاليًا، قامت رقائق سلاسل شرائح الذكاء الاصطناعي البصري والذكاء الاصطناعي المركب للسيارات من Guokewei بتركيب نسخة NPU 3.0، وتدعم قدرات حسابية من 0.5T إلى 8T، وتدعم تطبيق نماذج AI مثل البصر والسمعيات والسلاسل الزمنية وغيرها على الرقائق الطرفية.

في تصميم معمارية GKNPU 4.0، اقترحت Guokewei بنية صفيف نابضي معزز موجهة للحساب الفعّال لآلية الانتباه، مع توسيع موجه لقدرات حساب المصفوفات والمتجهات، وتعزيز دعم العمليات الرئيسية ضمن آلية انتباه النماذج الكبيرة، وتقليص مسار نقل البيانات ونفقات خط الأنابيب، وتعزيز قدرة الحساب ذات الحلقة المغلقة على الشريحة. يهدف هذا التصميم إلى تقليل الاعتماد على عرض النطاق الخارجي، وتحسين كفاءة تنفيذ مسار الاستدلال، والتعامل بفعالية مع اختناقات عرض النطاق في استدلال النماذج الكبيرة، وضغط الذاكرة الناتج عن تجزؤ قيم التفعيل، وضغوط السياقات الطويلة جدًا.

تعزيز سلسلة الأدوات، ودفع النشر واسع النطاق بكفاءة

إلى جانب تطور معمارية NPU، تواصل Guokewei تعزيز قدرات سلسلة الأدوات. تستهدف GKToolchain 3.0 من الجيل الجديد سيناريوهات الحوسبة غير المتجانسة على الأجهزة الطرفية، مع التركيز على تحسين قدرات مثل تجميع الأجهزة «من منظور الإدراك» والترجمة، والتقسيم التلقائي، والتفـتيل/التوجيه المتجهي التلقائي، والقراءة/الكتابة غير المتزامنة للبيانات وترتيب خطوط الحساب، بما يدفع نشر النماذج من «قابلة للتكيّف» إلى «عالية الكفاءة وقابلة للتوسع».

وفي الوقت نفسه، تواصل سلسلة الأدوات التطور حول اتجاهات متقدمة مثل إدارة الذاكرة الديناميكية وتسريع الاستدلال الاستباقي، لتعزيز قدرات الدعم لإدارة السياقات الطويلة وخطوط الاستدلال المعقدة، مما يساعد العملاء على إتمام حلقة الإغلاق من النموذج إلى الشريحة بكفاءة.

ومع انتقال تطبيقات الذكاء الاصطناعي من جانب التدريب إلى جانب الاستدلال، ومن السحابة إلى الطرفيات، تتحول متطلبات الصناعة على منصات الحوسبة من «الأداء الذروي» إلى «الكفاءة الطاقية العالية وقابلية الإنتاج الكمي والسهولة في النشر» كقدرات شاملة. تمتلك NPU مزايا واضحة من حيث التكلفة واستهلاك الطاقة عند التوسع في النشر على الأجهزة الطرفية.

وقال Ni Yayu إن Guokewei ستواصل الإصرار على الابتكار التعاوني بين الخوارزميات والأجهزة، وبالتركيز على الاختناقات الأساسية في استدلال النماذج الكبيرة، ستتابع تحسين معمارية NPU وقدرات المنتج ونظام سلسلة الأدوات، بما يدفع تطور منصة الحوسبة الذكية الطرفية نحو أداء أعلى واستهلاك طاقة أقل واتجاهات عملية للهندسة أكثر قوة، لتوفير حلول حوسبة منافِسة للعملاء.

كم هائل من الأخبار، وتفسير دقيق، كل ذلك على تطبيق Sina Finance

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.52Kعدد الحائزين:2
    2.15%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت