رولفلي: دخل النموذج الكبير عصر ما بعد التدريب، حيث تصل نسبة قوة الحوسبة بين التدريب المسبق واللاحق إلى 1:1

robot
إنشاء الملخص قيد التقدم

أخبار ME، 24 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أشار لي فو لي، رئيس فريق نماذج ميومي الكبيرة، إلى أن المنافسة على النماذج الكبيرة قد انتقلت من عصر الدردشة الذي يهيمن عليه التدريب المسبق، إلى عصر الوكيل الذي يهيمن عليه التدريب بعدي (Post-train). النقطة الأساسية الحالية هي «كيفية تحسين التوسع في التعلم المعزز (RL) على الوكيل». هذا التحول في النموذج أدى مباشرة إلى إعادة هيكلة تخصيص القدرة الحاسوبية. كشف لي فو لي أنه في عصر الدردشة، كانت نسبة القدرة الحاسوبية المستخدمة للبحث، والتدريب المسبق، والتدريب بعدي حوالي 3:5:1؛ أما في عصر الوكيل الحالي، فإن النسبة المعقولة لتوزيع القدرة الحاسوبية أصبحت 3:1:1، أي أن استثمارات القدرة الحاسوبية في التدريب المسبق والتدريب بعدي أصبحت تقريبًا متساوية، وقد وصلت نسبة استثمار الفرق الكبرى في هذين المجالين إلى 1:1. في الوقت نفسه، تغيرت متطلبات بنية النظام بشكل كبير. كانت البنية التحتية للـ RL في الماضي تركز بشكل رئيسي على «محرك استنتاج النموذج»، لمعالجة الحسابات النصية الصافية؛ أما الآن، فيجب أن تكون البنية الأساسية مركزة على «الوكيل»، لدعم جدولة التجمعات غير المتجانسة، وتحمل غموض انقطاع الوكيل بسبب عوامل غير متوقعة في سير العمل المعقد. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت