Zyphra إصدار ZAYA1-8B-Diffusion-Preview، يحول نموذج اللغة الكبير التوليدي التلقائي إلى نموذج انتشاري مختلط خبير، ليصبح أول نموذج لغة انتشاري يتم تدريبه ضمن بيئة أجهزة AMD. من خلال TiDAR، يتجاوز التدريب المسبق من الصفر، ويقوم بإزالة الضوضاء من 16 رمزًا في وقت واحد خلال تمريرة واحدة، مما يحول عنق الزجاجة في الذاكرة إلى عنق زجاجة في القدرة الحسابية. أظهرت الاختبارات تسريعًا بمقدار 4.6 مرات باستخدام انتباه CCA وعينة بدون فقد، وزادت إلى 7.7 مرات بعد التبديل إلى مرشح التوليد المختلط.

MeNews

2026-05-23 09:07:37

إنشاء الملخص قيد التقدم

AIMPACT رسالة، 15 مايو (UTC+8)، وفقًا لمراقبة Beating من 动察، أطلقت Zyphra نموذج التوزيع المختلط (MoE) المستند إلى نموذج اللغة الكبير التلقائي (AutoRegressive) المحول، ZAYA1-8B-Diffusion-Preview. على الرغم من أن الجهة الرسمية تدعي في الدعاية أنه "أول" نموذج يحقق هذا التحول في الهيكل، إلا أن هذا المسار تم تنفيذه مسبقًا من قبل فرق مثل SDAR و LLaDA 2.0 في نهاية العام الماضي. العلامة الفريدة الحقيقية لـ ZAYA1 تكمن في كونه أول نموذج توزيع لغوي تم تدريبه على بيئة أجهزة AMD. بعيدًا عن الخطاب التسويقي، لا يزال هذا النموذج يثبت قيمة تحسين الكفاءة الهندسية من خلال بنية التوزيع. النماذج التلقائية التقليدية مقيدة بالتوليد التسلسلي لكل كلمة، وتراكم ذاكرة التخزين المؤقت KV Cache يجعل سرعة التوليد تصل إلى الحد الفيزيائي. كما كشفت فريق هيا كايمينج مؤخرًا عن الاتجاه الصناعي من خلال نموذج ELF التوزيعي الخالص، فإن المعالجة المتوازية لإزالة الضوضاء هي المفتاح لكسر هذا القيد. استخدمت ZAYA1 خطة TiDAR لتجاوز التدريب المسبق من الصفر، حيث يمكنها في تمريرة أمامية واحدة إزالة الضوضاء من 16 مرشحًا للكلمة في وقت واحد، مما حول عنق الزجاجة في عرض الذاكرة إلى عنق الزجاجة في القدرة الحسابية. أظهرت الاختبارات أن دمج آلية الانتباه CCA الخاصة بـ ZAYA1، مع استخدام مرشح عينات غير مفقود قياسي، يمكن أن يحقق سرعة تسريع بمقدار 4.6 مرات دون تقليل جودة التوليد. بعد التبديل إلى مرشح لوجيت المختلط، ارتفعت نسبة التسريع إلى 7.7 مرات، مما يوفر مساحة حقيقية لتقليل التكاليف في مهام الاستنتاج الكبيرة التي تتطلب وقتًا كبيرًا. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 8

أعجبني
8
7
2
مشاركة

تعليق

إضافة تعليق

GateUser-9008328f

· منذ 5 س

كم من المهام الفرعية يمكن تدريبها باستخدام تكلفة التدريب المسبق التي وفّرها TiDAR

شاهد النسخة الأصليةرد0

CrystalBallForSentiment

· منذ 5 س

نموذج اللغة المنتشر أخيرًا لم يعد بحاجة إلى النظر إلى وجه NV، شيء جيد

شاهد النسخة الأصليةرد0

GateUser-eccf92a1

· منذ 5 س

تي دي آر تخطي التدريب المسبق يوفر الكثير، وأخيرًا أصبح لدى نظام إيكولوجي AMD نموذج انتشار قادر على المنافسة

شاهد النسخة الأصليةرد0

GateUser-4aa73916

· منذ 5 س

يمكن للمرء أن ينفذ 16 رمزًا في تمريرة واحدة، مما يجعلها مثالية للمواقف التي تتطلب استجابة منخفضة.

شاهد النسخة الأصليةرد0

Semi-MeltedIceCream

· منذ 5 س

CCA انتباه بدون فقدان العينات 4.6x، أريد كتابة مدونة تقنية عن التفاصيل الهندسية

شاهد النسخة الأصليةرد0

MosaicButterfly

· منذ 5 س

16 رمزيات إزالة الضوضاء في وقت واحد، وتحويل الذاكرة إلى قوة حسابية، هذه الفكرة مناسبة جدًا لبطاقات المستهلكين

شاهد النسخة الأصليةرد0

LookingAtTheCandlestickChart

· منذ 5 س

التدريب على AMD بدلاً من الترحيل، بدأ خطاب البيئة يتغير

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
300.75K درجة الشعبية
#
PlatinumCardCreatorExclusive
92.22K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
48.8K درجة الشعبية
#
#DailyPolymarketHotspot
1.04M درجة الشعبية
#
GateSquarePizzaDay
1.77M درجة الشعبية

مُثبت

خريطة الموقع

Zyphra تطلق أول نموذج لغة موسع لنظام AMD البيئي، بسرعة تصل إلى 7.7 أضعاف

المواضيع الرائجة

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

مُثبت