تشغيل النماذج الكبيرة في المتصفح أخيرًا لم يعد يتطلب النظر إلى مزودي خدمات السحابة، بطاقة GPU المحلية تنطلق مباشرة

شاهد النسخة الأصلية
MeNews
llama.cpp يدعم رسميًا WebGPU، وتقليل ذاكرة التنبؤ على جانب المتصفح بأكثر من 30%
llama.cpp و ggml يطلقان رسميًا دعم WebGPU من قبل الفريقين، مما يتيح تشغيل نماذج GGUF الكبيرة بسرعة على GPU المحلي في المتصفح، مع معالجة كاملة على الجانب المحلي وعدم إرسال البيانات خارج الجهاز، لتحقيق استنتاج خاص بدون إعدادات. تقول الورقة البحثية إن تخطيط الذاكرة الثابت والتحميل الفعال يقللان من استهلاك الذاكرة على الويب بنسبة 29-33%، مع تحسين معدل فك التشفير عبر أجهزة إنتل، أبل، ونيفيديا بنسبة 45-69%. العرض التوضيحي المستند إلى wllama يتجاوز التحسينات المتوقعة من الورقة من حيث الأداء، كما يمكن الترجمة عبر Google C++ WebGPU Dawn على الجهاز المحلي، مع تقديم معايير مقارنة بين Vulkan و WebGPU.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت