ذاكرة Δ-Mem: ذاكرة فعالة عبر الإنترنت لنماذج اللغة الكبيرة

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 16 مايو (بتوقيت UTC+8)، اقترح الباحثون نظام ذاكرة فعال عبر الإنترنت يسمى Δ-Mem، مصمم خصيصًا لنماذج اللغة الكبيرة. يقلل هذا النظام بشكل كبير من استهلاك الذاكرة من خلال تخزين وتحديث التغييرات التدريجية في تنشيط النموذج فقط، بدلاً من الحالة الكاملة للتنشيط. أظهرت التجارب أن Δ-Mem يمكن أن يقلل من استخدام الذاكرة بنسبة تصل إلى 70٪، مع الحفاظ على جودة مخرجات النموذج تقريبًا دون خسارة. تساعد هذه الطريقة في نشر وتشغيل نماذج اللغة الكبيرة في بيئات ذات موارد محدودة، وتعزيز إمكانية تطبيقها في سيناريوهات الاستدلال عبر الإنترنت والتعلم المستمر. (المصدر: AiHot)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 10
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
DeltaSmile
· منذ 4 س
جودة الإخراج بدون فقدان هي الأهم، العديد من حلول الضغط تضحي بالكثير من الدقة.
شاهد النسخة الأصليةرد0
PickingUpAirdropsInTheFog
· منذ 10 س
تحسين القدرة على التعلم المستمر يُقلل من تقديره، وهو مهم جدًا للنماذج الشخصية.
شاهد النسخة الأصليةرد0
InvisibleMarketMaker
· منذ 10 س
انخفاض الذاكرة بنسبة 70٪ فعلاً مدهش، لكن هل ستصبح تكلفة الحساب للتحديثات التدريجية في السيناريوهات عبر الإنترنت عقبة جديدة؟
شاهد النسخة الأصليةرد0
ColdStartUnderTheAurora
· منذ 10 س
أخيرًا هناك من يتعامل بجدية مع مشكلة جدار الذاكرة في نماذج اللغة الكبيرة، أتطلع إلى الأعمال المستقبلية.
شاهد النسخة الأصليةرد0
HotAirBalloonCrossingMountains
· منذ 10 س
يبدو أن الانتباه المتناثر والانتباه غير المتناثر يمكن تراكبهما، لضغط مزدوج.
شاهد النسخة الأصليةرد0
PettyLp
· منذ 10 س
نظام الذاكرة عبر الإنترنت هذا دقيق جدًا في تحديد الموقع، وملأ الفراغ في مرحلة الاستنتاج.
شاهد النسخة الأصليةرد0
CheckTheBlockchainBefore
· منذ 10 س
ما مدى توافق طرق التعديل الدقيق الفعالة من حيث المعلمات مثل الفضول وLoRA.
شاهد النسخة الأصليةرد0
ProtocolPaladin
· منذ 10 س
إذا تم فتح هذا الاتجاه كمصدر مفتوح، يمكن للمجتمع أن يبتكر العديد من الأساليب.
شاهد النسخة الأصليةرد0
PerpPessimist
· منذ 10 س
ما مجموعة التقييم المستخدمة في التجربة؟ هل هي GLUE أم مهام استنتاج أكثر تعقيدًا؟
شاهد النسخة الأصليةرد0
TokenomicsMechanic
· منذ 10 س
70% هل هو الحد الأقصى أم المتوسط؟ هل تختلف الأداءات بشكل كبير بين أحجام النماذج المختلفة؟
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت