ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Beating (Dongcha), керівник команди великих моделей Xiaomi Ло Фулі зазначив, що конкуренція великих моделей повністю перейшла від епохи Chat з домінуванням попереднього навчання до епохи Agent з домінуванням пост-навчання (Post-train). Поточним ключовим завданням є «як правильно масштабувати (scaling) навчання з підкріпленням (RL) на Agent». Ця зміна парадигми безпосередньо призвела до перерозподілу обчислювальних потужностей. Ло Фулі розкрив, що в епоху Chat співвідношення обчислювальних потужностей, що використовуються для досліджень, попереднього навчання та пост-навчання, становило приблизно 3:5:1; а в нинішню епоху Agent розумне співвідношення розподілу обчислювальних потужностей змінилося на 3:1:1, тобто витрати на попереднє та пост-навчання стали майже однаковими, і зараз провідні команди моделей досягли співвідношення 1:1 у цих двох напрямках. Водночас вимоги до системної архітектури також зазнали кардинальних змін. Раніше інфраструктура RL була зосереджена на «двигуні логічного висновку моделі» для обробки чисто текстових обчислень; тепер інфраструктура повинна бути зосереджена на «Agent», підтримувати планування гетерогенних кластерів і бути здатною терпіти невизначеність через переривання Agent у складних робочих процесах через різні некеровані фактори. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
529,05K Популярність
#
CirclePlunges17%
6,51M Популярність
#
IsraelStrikesIranBTCPlunges
67,51K Популярність
#
PredictWorldCupShare20000U
159,61K Популярність
#
GateCardPointsSystemLaunched
117,57K Популярність

Закріплено

карта сайту

Ло Фулі: велика модель вступає в епоху пост-тренування, співвідношення обчислювальних потужностей переднього та заднього тренування у найкращих команд досягає 1:1

Популярні теми

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закріплено