جوجل ديب مايند أطلقت DiffusionGemma، وهو عضو جديد في عائلة Gemma 4 مفتوحة المصدر. أظهرت الاختبارات الرسمية أنه يمكن الوصول إلى حوالي 700 رمز في الثانية على Nvidia RTX 5090، ويمكن أن يتجاوز 1000 رمز في الثانية على H100، وهو تقريبًا أربعة أضعاف نموذج Gemma التلقائي بنفس الحجم.
(ملخص سابق: أطلقت جوجل نموذج Gemma 4 مفتوح المصدر بحجم 12 مليار، ويمكن تشغيله محليًا على لابتوب استهلاكي بسعة 16 جيجابايت)
(معلومات إضافية: تتفوق على نماذج جوجل! أطلقت Tether ذكاء اصطناعي طبي "يمكن تشغيله على الهاتف" باسم QVAC MedPsy، وتفكك الاعتماد على السحابة وتحل مشكلة الخصوصية)

فهرس المقال

Toggle

كيف يبدو النموذج الذي لا ينتج النص بترتيب غير معين
من أين تأتي ميزة السرعة
ثمن السرعة: الجودة تتراجع في جميع المعايير

هذه المرة، وضعت جوجل ديب مايند في عائلة Gemma 4 مفتوحة المصدر نوعًا غريبًا. معظم نماذج اللغة تولد النص بطريقة "التوليد التلقائي"، ببساطة من اليسار إلى اليمين، قرار حرف واحد في كل مرة، حيث يعتمد الحرف التالي على الاحتمالية المستندة إلى الحرف السابق، ويتم إكمال المقطع بشكل تسلسلي.

النهج في DiffusionGemma هو العكس تمامًا: يبدأ برسم "لوحة" مملوءة برموز مؤقتة، ثم يكرر عدة مرات عملية "إزالة الضوضاء" من المحتوى بالكامل، وفي النهاية ينتج مرة واحدة النص النهائي. هذا المنطق أقرب إلى طريقة توليد الصور باستخدام Stable Diffusion، وليس إلى طريقة GPT في توليد النص.

قالت جوجل رسميًا إن هذا الهيكل يوفر ميزة سرعة قابلة للقياس على الأجهزة المحلية، وهو متاح بموجب ترخيص Apache 2.0 للمطورين والباحثين للاستخدام.

كيف يبدو النموذج الذي لا ينتج النص بترتيب غير معين

يعتمد DiffusionGemma على بنية "خبراء مختلطين" (MoE).

مفهوم MoE هو أن النموذج يحتوي على عدد كبير من الشبكات الفرعية "خبراء"، ولكن في كل استنتاج يتم تفعيل جزء منها فقط، بدلاً من تفعيل جميع المعاملات في كل مرة، وبالعامية، على الرغم من أن النموذج كبير جدًا، إلا أن كل عملية حسابية تستدعي فقط الخبراء الضروريين.

إجمالي عدد معاملات DiffusionGemma هو 26 مليار (26B)، ولكن عند الاستنتاج يتم تفعيل حوالي 3.8 مليار (3.8B) فقط. هذا يسمح له بالعمل ضمن 18 جيجابايت من VRAM على بطاقة رسومات عالية المستوى، خاصة بعد التكميم.

أما عملية التوليد فهي أكثر تفصيلًا. النموذج التلقائي القياسي هو خط إنتاج خطي: بعد أن يتم إنتاج الرمز الأول، يبدأ حساب الرمز الثاني، وهكذا.

أما DiffusionGemma، فهو يضع رموز مؤقتة على كامل منطقة الإخراج، ثم يجري عدة جولات من إزالة الضوضاء، حيث يتم تحديث جميع المواقع في كل جولة بشكل متزامن، ويقوم كل رمز بتصحيح تقديره بشكل متبادل، حتى تتقارب المحتويات إلى الناتج النهائي. يمكن معالجة حتى 256 رمز بشكل متوازي في مرة واحدة.

هذا التصميم له معنى محدد في المهام غير الخطية. مثال جوجل هو حل سودوكو: النموذج التلقائي التقليدي يكون أداؤه عاديًا في مثل هذه المهام، لأن ملء خانة صحيحة غالبًا يعتمد على خانات لم يتم تحديدها بعد، ولكن النموذج التلقائي يتقدم بشكل تسلسلي، ولا يمكن العودة للخلف.

أما DiffusionGemma، فيمكنه باستمرار تصحيح مجموعة الرموز بشكل ذاتي، وهو أكثر فائدة نظريًا في المهام التي تعتمد على علاقات منطقية معقدة.

تشمل الاستخدامات الأخرى التي ذكرتها جوجل: التحرير في الخط، توليد تسلسلات الجزيئات، الرسوم الرياضية.

من أين تأتي ميزة السرعة

من الناحية المادية، فإن سرعة استنتاج النموذج التلقائي تعتمد على "عرض الذاكرة"، حيث أن كل رمز يتم إنتاجه يتطلب قراءة وزن النموذج من الذاكرة، وسرعة نقل البيانات هي العنصر المحدد. أما عائق نماذج الانتشار فهو مختلف، فهو يعتمد على "القدرة الحسابية"، حيث يتم حساب دفعات كبيرة من الرموز مرة واحدة، وكل رمز يستهلك كمية أقل من القراءة من الذاكرة.

انتقال هذا العائق له دلالة اقتصادية حقيقية. عادةً، قدرة وحدات معالجة الرسومات الحديثة تتجاوز عرض الذاكرة بشكل كبير، واستخدام النموذج التلقائي "توليد رمز واحد في كل مرة" يعني أن وحدات الحساب المكلفة تبقى تنتظر البيانات من الذاكرة، وتظل في حالة شبه خمول لفترات طويلة.

أما توليد الانتشار، فهو يوزع العمل على حسابات متوازية كبيرة، مما يسمح باستخدام قدرة GPU بشكل كامل، خاصة في التطبيقات التي تتطلب وقتًا طويلًا وإنتاج دفعات كبيرة.

هذا الاختلاف يظهر مباشرة على سرعة الأداء في وحدات GPU الحديثة. أظهرت اختبارات جوجل الأرقام التالية: على Nvidia RTX 5090 للمستهلكين، تصل سرعة DiffusionGemma إلى حوالي 700 رمز في الثانية؛ وعلى Nvidia H100 في مراكز البيانات، يمكن أن تتجاوز 1000 رمز في الثانية. وفقًا لتقييم جوجل، هذا يعادل حوالي أربعة أضعاف سرعة نموذج Gemma التلقائي بنفس الحجم.

يجب التأكيد على أن الأرقام أعلاه من اختبارات جوجل الرسمية، ولم يتم التحقق منها بشكل مستقل من قبل طرف ثالث. قد تختلف النسب الفعلية حسب السيناريو وطول النص المولد.

ثمن السرعة: الجودة تتراجع في جميع المعايير

لكن، في جميع الاختبارات المعيارية المنشورة، كانت نتائج DiffusionGemma أدنى من نموذج Gemma 4 القياسي. بمعنى آخر، أن سرعة أربعة أضعاف تأتي بثمن، وهو تراجع منهجي في جودة الإنتاج.

هذا التوازن له معانٍ مختلفة حسب الاستخدام. إذا كنت تهتم بعدد الرموز في الثانية، مثل المعالجة الجماعية الكبيرة، أو التشغيل على الأجهزة المحلية، أو التطبيقات التي تتطلب استجابة منخفضة جدًا، فإن ميزة السرعة لـ DiffusionGemma حقيقية.

أما إذا كانت المهمة تتطلب جودة عالية في النتائج، فإن نموذج Gemma 4 لا يزال أكثر موثوقية حاليًا.

بالنسبة لمجتمع الذكاء الاصطناعي المحلي، فإن هذا النموذج يمثل تجسيدًا لخيارات التوازن: كم من الجودة أنت مستعد للتضحية مقابل زيادة السرعة على الأجهزة المحلية المحدودة؟

الآن، هناك نقطة مرجعية يمكن للمطورين تجربتها مباشرة. ترخيص Apache 2.0 يتيح لأي مطور إجراء التعديلات والبحوث عليه، والحدود الفعلية لتوليد اللغة باستخدام الانتشار ستعتمد على المجتمع في المستقبل.

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
42.37K درجة الشعبية
#
USMayCPIHitsThreeYearHigh
314.08K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
57.21K درجة الشعبية
#
USIranConflictEscalates
693.79K درجة الشعبية
#
GateLaunchesHongKongStockTrading
787.01K درجة الشعبية

مُثبت

خريطة الموقع

Google 新開源 DiffusionGemma 模型：生成快 4 倍，但品質落後 Gemma 4

كيف يبدو النموذج الذي لا ينتج النص بترتيب غير معين

من أين تأتي ميزة السرعة

ثمن السرعة: الجودة تتراجع في جميع المعايير

المواضيع الرائجة

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

مُثبت