Zyphra تطلق أول نموذج لغة موسع لنظام AMD البيئي، بسرعة تصل إلى 7.7 أضعاف

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 15 مايو (UTC+8)، وفقًا لمراقبة Beating من 动察، أطلقت Zyphra نموذج التوزيع المختلط (MoE) المستند إلى نموذج اللغة الكبير التلقائي (AutoRegressive) المحول، ZAYA1-8B-Diffusion-Preview. على الرغم من أن الجهة الرسمية تدعي في الدعاية أنه "أول" نموذج يحقق هذا التحول في الهيكل، إلا أن هذا المسار تم تنفيذه مسبقًا من قبل فرق مثل SDAR و LLaDA 2.0 في نهاية العام الماضي. العلامة الفريدة الحقيقية لـ ZAYA1 تكمن في كونه أول نموذج توزيع لغوي تم تدريبه على بيئة أجهزة AMD. بعيدًا عن الخطاب التسويقي، لا يزال هذا النموذج يثبت قيمة تحسين الكفاءة الهندسية من خلال بنية التوزيع. النماذج التلقائية التقليدية مقيدة بالتوليد التسلسلي لكل كلمة، وتراكم ذاكرة التخزين المؤقت KV Cache يجعل سرعة التوليد تصل إلى الحد الفيزيائي. كما كشفت فريق هيا كايمينج مؤخرًا عن الاتجاه الصناعي من خلال نموذج ELF التوزيعي الخالص، فإن المعالجة المتوازية لإزالة الضوضاء هي المفتاح لكسر هذا القيد. استخدمت ZAYA1 خطة TiDAR لتجاوز التدريب المسبق من الصفر، حيث يمكنها في تمريرة أمامية واحدة إزالة الضوضاء من 16 مرشحًا للكلمة في وقت واحد، مما حول عنق الزجاجة في عرض الذاكرة إلى عنق الزجاجة في القدرة الحسابية. أظهرت الاختبارات أن دمج آلية الانتباه CCA الخاصة بـ ZAYA1، مع استخدام مرشح عينات غير مفقود قياسي، يمكن أن يحقق سرعة تسريع بمقدار 4.6 مرات دون تقليل جودة التوليد. بعد التبديل إلى مرشح لوجيت المختلط، ارتفعت نسبة التسريع إلى 7.7 مرات، مما يوفر مساحة حقيقية لتقليل التكاليف في مهام الاستنتاج الكبيرة التي تتطلب وقتًا كبيرًا. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
GateUser-9008328f
· منذ 5 س
كم من المهام الفرعية يمكن تدريبها باستخدام تكلفة التدريب المسبق التي وفّرها TiDAR
شاهد النسخة الأصليةرد0
CrystalBallForSentiment
· منذ 5 س
نموذج اللغة المنتشر أخيرًا لم يعد بحاجة إلى النظر إلى وجه NV، شيء جيد
شاهد النسخة الأصليةرد0
GateUser-eccf92a1
· منذ 5 س
تي دي آر تخطي التدريب المسبق يوفر الكثير، وأخيرًا أصبح لدى نظام إيكولوجي AMD نموذج انتشار قادر على المنافسة
شاهد النسخة الأصليةرد0
GateUser-4aa73916
· منذ 5 س
يمكن للمرء أن ينفذ 16 رمزًا في تمريرة واحدة، مما يجعلها مثالية للمواقف التي تتطلب استجابة منخفضة.
شاهد النسخة الأصليةرد0
Semi-MeltedIceCream
· منذ 5 س
CCA انتباه بدون فقدان العينات 4.6x، أريد كتابة مدونة تقنية عن التفاصيل الهندسية
شاهد النسخة الأصليةرد0
MosaicButterfly
· منذ 5 س
16 رمزيات إزالة الضوضاء في وقت واحد، وتحويل الذاكرة إلى قوة حسابية، هذه الفكرة مناسبة جدًا لبطاقات المستهلكين
شاهد النسخة الأصليةرد0
LookingAtTheCandlestickChart
· منذ 5 س
التدريب على AMD بدلاً من الترحيل، بدأ خطاب البيئة يتغير
شاهد النسخة الأصليةرد0
  • مُثبت