لوفولي: النماذج الكبيرة تدخل عصر ما بعد التدريب، نسبة قوة الحوسبة للتدريب المسبق وما بعد التدريب في الفرق الرائدة تصل إلى 1:1

robot
إنشاء الملخص قيد التقدم
أخبار ME نيوز، في 24 أبريل (UTC+8)، وفقًا لرصد Beating، أشار لوه فولي، رئيس فريق نموذج شياومي الكبير، إلى أن المنافسة في النماذج الكبيرة تحولت بالكامل من عصر الدردشة الذي يقوده التدريب المسبق إلى عصر الوكيل الذي يقوده ما بعد التدريب (Post-train). المحور الأساسي الحالي هو «كيفية تحقيق تحجيم (scaling) جيد للتعلم المعزز (RL) على الوكيل». يؤدي هذا التحول النموذجي مباشرة إلى إعادة هيكلة توزيع القوة الحاسوبية. كشف لوه فولي أنه في عصر الدردشة، كانت نسبة القوة الحاسوبية المخصصة للبحث والتدريب المسبق وما بعد التدريب حوالي 3:5:1؛ بينما في عصر الوكيل الحالي، أصبحت النسبة المعقولة لتوزيع القوة الحاسوبية 3:1:1، أي أن استثمار القوة الحاسوبية في التدريب المسبق وما بعد التدريب أصبح متساويًا تقريبًا، وقد وصلت نسبة الاستثمار في هذين المجالين لدى فرق النماذج الرائدة حاليًا إلى 1:1. في الوقت نفسه، تغيرت متطلبات بنية النظام بشكل كبير. كانت البنية التحتية السابقة للتعلم المعزز تركز بشكل أساسي على «محرك استدلال النموذج» لمعالجة العمليات الحسابية النصية البحتة؛ أما الآن فيجب أن تركز البنية التحتية على «الوكيل»، وتدعم جدولة المجموعات غير المتجانسة، وتتحمل غموض توقف الوكيل أثناء سير العمل المعقد بسبب عوامل غير خاضعة للسيطرة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت