لو فولي: النماذج الكبيرة تدخل عصر ما بعد التدريب، الفرق الرائد يحقق نسبة حساب 1:1 بين التدريب المسبق وما بعد التدريب

وفقًا للمراقبة التي أجرتها Dongcha Beating، أشار Luo Fuli، رئيس فريق النماذج الكبيرة في Xiaomi، إلى أن المنافسة في النماذج الكبيرة قد انتقلت من عصر الدردشة الذي يهيمن عليه التدريب المسبق إلى عصر الوكلاء الذي يهيمن عليه التدريب بعدي. النقطة الأساسية للمنافسة الحالية هي “كيفية توسيع التعلم المعزز بشكل فعال (RL) على الوكلاء.” لقد أدى هذا التحول في النموذج مباشرة إلى إعادة هيكلة تخصيص موارد الحوسبة. كشف Luo أن خلال عصر الدردشة، كانت نسبة الحوسبة للبحث، والتدريب المسبق، والتدريب بعدي تقريبًا 3:5:1؛ بينما في عصر الوكلاء الحالي، أصبحت نسبة التخصيص المعقولة للحوسبة 3:1:1، مما يشير إلى أن استثمار الحوسبة للتدريب المسبق والتدريب بعدي أصبحا الآن متساويين تقريبًا، حيث حققت فرق النماذج العليا نسبة استثمار 1:1 في هذين المجالين. بالإضافة إلى ذلك، شهدت متطلبات بنية النظام تغييرات كبيرة. سابقًا، كانت بنية تحتية لـ RL تركز بشكل رئيسي على “محركات استنتاج النموذج” التي تتعامل مع حسابات النصوص الصافية؛ الآن، يجب أن تركز البنية التحتية على “الوكلاء”، مع دعم جدولة العنقود غير المتجانس وتحمل غموض أن الوكلاء قد يتعرضون للمقاطعة في سير العمل المعقد بسبب عوامل غير قابلة للتحكم فيها.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت