وفقًا للمراقبة التي أجرتها Dongcha Beating، أشار Luo Fuli، رئيس فريق النماذج الكبيرة في Xiaomi، إلى أن المنافسة في النماذج الكبيرة قد انتقلت من عصر الدردشة الذي يهيمن عليه التدريب المسبق إلى عصر الوكلاء الذي يهيمن عليه التدريب بعدي. النقطة الأساسية للمنافسة الحالية هي “كيفية توسيع التعلم المعزز بشكل فعال (RL) على الوكلاء.” لقد أدى هذا التحول في النموذج مباشرة إلى إعادة هيكلة تخصيص موارد الحوسبة. كشف Luo أن خلال عصر الدردشة، كانت نسبة الحوسبة للبحث، والتدريب المسبق، والتدريب بعدي تقريبًا 3:5:1؛ بينما في عصر الوكلاء الحالي، أصبحت نسبة التخصيص المعقولة للحوسبة 3:1:1، مما يشير إلى أن استثمار الحوسبة للتدريب المسبق والتدريب بعدي أصبحا الآن متساويين تقريبًا، حيث حققت فرق النماذج العليا نسبة استثمار 1:1 في هذين المجالين. بالإضافة إلى ذلك، شهدت متطلبات بنية النظام تغييرات كبيرة. سابقًا، كانت بنية تحتية لـ RL تركز بشكل رئيسي على “محركات استنتاج النموذج” التي تتعامل مع حسابات النصوص الصافية؛ الآن، يجب أن تركز البنية التحتية على “الوكلاء”، مع دعم جدولة العنقود غير المتجانس وتحمل غموض أن الوكلاء قد يتعرضون للمقاطعة في سير العمل المعقد بسبب عوامل غير قابلة للتحكم فيها.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
266.76K درجة الشعبية
#
比特币Breaks79K
10.3K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
34.02K درجة الشعبية
#
CryptoMarketsRiseBroadly
79.67K درجة الشعبية
#
WHCADinnerShootingIncident
10.34K درجة الشعبية

تثبيت

خريطة الموقع

لو فولي: النماذج الكبيرة تدخل عصر ما بعد التدريب، الفرق الرائد يحقق نسبة حساب 1:1 بين التدريب المسبق وما بعد التدريب

المواضيع الرائجة

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

تثبيت