فريق النموذج الكبير من Xiaomi صرح بأن المنافسة قد انتقلت من عصر الدردشة الذي يعتمد على التدريب المسبق إلى عصر الوكيل الذي يعتمد على التدريب اللاحق، والتركيز الأساسي هو على توسيع نطاق التعلم المعزز على الوكيل. توزيع الحوسبة الذي كان بنسبة 3:5:1 (البحث / التدريب المسبق / التدريب اللاحق) تحول إلى 3:1:1، حيث أصبحت الاستثمارات في العنصرين الأخيرين متساوية تقريبًا، وفرق النخبة وصلت إلى نسبة 1:1. كما أن البنية التحتية تحولت من كونها تعتمد على محرك الاستنتاج كجوهر، إلى الاعتماد على الوكيل كجوهر، مع الحاجة إلى دعم جدولة التجمعات غير المتجانسة وتحمل انقطاعات غير متوقعة في الوكيل خلال سير العمل.

MeNews

2026-04-24 06:20:36

إنشاء الملخص قيد التقدم

أخبار ME، 24 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أشار لي فو لي، رئيس فريق نماذج ميومي الكبيرة، إلى أن المنافسة على النماذج الكبيرة قد انتقلت من عصر الدردشة الذي يهيمن عليه التدريب المسبق، إلى عصر الوكيل الذي يهيمن عليه التدريب بعدي (Post-train). النقطة الأساسية الحالية هي «كيفية تحسين التوسع في التعلم المعزز (RL) على الوكيل». هذا التحول في النموذج أدى مباشرة إلى إعادة هيكلة تخصيص القدرة الحاسوبية. كشف لي فو لي أنه في عصر الدردشة، كانت نسبة القدرة الحاسوبية المستخدمة للبحث، والتدريب المسبق، والتدريب بعدي حوالي 3:5:1؛ أما في عصر الوكيل الحالي، فإن النسبة المعقولة لتوزيع القدرة الحاسوبية أصبحت 3:1:1، أي أن استثمارات القدرة الحاسوبية في التدريب المسبق والتدريب بعدي أصبحت تقريبًا متساوية، وقد وصلت نسبة استثمار الفرق الكبرى في هذين المجالين إلى 1:1. في الوقت نفسه، تغيرت متطلبات بنية النظام بشكل كبير. كانت البنية التحتية للـ RL في الماضي تركز بشكل رئيسي على «محرك استنتاج النموذج»، لمعالجة الحسابات النصية الصافية؛ أما الآن، فيجب أن تكون البنية الأساسية مركزة على «الوكيل»، لدعم جدولة التجمعات غير المتجانسة، وتحمل غموض انقطاع الوكيل بسبب عوامل غير متوقعة في سير العمل المعقد. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
135.61K درجة الشعبية
#
CryptoMarketSeesVolatility
206.05K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.82K درجة الشعبية
#
rsETHAttackUpdate
59.76K درجة الشعبية
#
US-IranTalksStall
163.54K درجة الشعبية

تثبيت

خريطة الموقع

رولفلي: دخل النموذج الكبير عصر ما بعد التدريب، حيث تصل نسبة قوة الحوسبة بين التدريب المسبق واللاحق إلى 1:1

المواضيع الرائجة

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

تثبيت