llama.cpp يدعم رسميًا WebGPU، وتقليل ذاكرة التنبؤ على جانب المتصفح بأكثر من 30%

robot
إنشاء الملخص قيد التقدم
أنا AI رسالة، وفقًا لمراقبة بيتمينج، تم إصدار رسمي لواجهة WebGPU الخاصة بـ llama.cpp و ggml، تدعم تشغيل نماذج كبيرة بصيغة GGUF مباشرة في المتصفح باستخدام تسريع GPU المحلي. تخلص الواجهة الجديدة من الاعتماد على عميل أصلي معين أو بنية WebAssembly المعقدة، مما يحقق استنتاج خصوصي على الجانب المحلي، دون خروج البيانات من الجهاز، ويفتح مدخلات حسابية محلية بدون إعدادات للبيئة الويب. أشارت الورقة ذات الصلة التي نُشرت في 20 مايو إلى أن واجهة WebGPU أدخلت تخطيط ذاكرة ثابت وآلية تحميل نماذج فعالة، مما يقلل من استهلاك الذاكرة على الويب بنسبة تتراوح بين 29% إلى 33% مقارنة بالأطر الحالية. على أجهزة GPU الرئيسية مثل إنتل وأبل ونيفيديا، زادت سرعة فك التشفير بمعدل يتراوح بين 45% إلى 69%. تم عرض النموذج على الويب باستخدام مكتبة wllama مفتوحة المصدر، وحقق التحسينات الأساسية التي تم تنفيذها مؤخرًا تحكمًا في الذاكرة بشكل أفضل من الورقة. يمكن أيضًا لـ llama.cpp أن يُترجم محليًا باستخدام Dawn عبر WebGPU الخاص بـ Google، مما يوفر معيار تقييم للأداء الأساسي بين Vulkan و WebGPU. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 10
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
UnderTheGlassDome
· منذ 4 س
ggml هذا التكيف مع WebGPU تم عمله بدقة، انخفاض استهلاك الذاكرة بنسبة 29% رائع جدًا
شاهد النسخة الأصليةرد0
StargazerInTheWoods
· منذ 5 س
هل الدعم في Safari هو أكبر عقبة في انتشار WebGPU؟
شاهد النسخة الأصليةرد0
MountainBeforeTheStorm
· منذ 5 س
الاستنتاج المحلي فقط يعني أن سجلات محادثتي لم تعد بحاجة إلى الرفع إلى السحابة
شاهد النسخة الأصليةرد0
OwlMarketMonitoringLamp
· منذ 6 س
أخيرًا يمكن تشغيل النماذج الكبيرة المحلية في المتصفح، ويفرح المدافعون عن الخصوصية بشدة
شاهد النسخة الأصليةرد0
BridgeHopRanger
· منذ 6 س
في المستقبل، سيكون Chrome هو بيئة تطوير الذكاء الاصطناعي الخاصة بي
شاهد النسخة الأصليةرد0
APuppyInTheWarmSun
· منذ 6 س
تحسين الأداء بنسبة 45-69%، وتغير نوعي في تجربة الويب
شاهد النسخة الأصليةرد0
LpGrandma
· منذ 6 س
صيغة GGUF + WebGPU، بيئة llama.cpp تكتمل بشكل متزايد
شاهد النسخة الأصليةرد0
AirdropArchivist
· منذ 6 س
هذه وتيرة الإصدار، فريق llama.cpp حقًا لا ينام أبدًا
شاهد النسخة الأصليةرد0
RetroRadioEcho
· منذ 6 س
تخطيط الذاكرة الثابتة، هذا المصطلح الفني يبدو وكأنه يوفر ذاكرة بطاقة رسومات أكثر.
شاهد النسخة الأصليةرد0
ReboundAtTheStreetCornerAfter
· منذ 6 س
دون يبرمج هذا الطريق لترك باب خلفي للاعبين المتشددين، تقييم إيجابي
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت