Згідно з моніторингом Dongcha Beating, керівник команди великих моделей Xiaomi Лю Фулі зазначив, що конкуренція у великих моделях змістилася з епохи Chat, домінованої попереднім навчанням, до епохи Агентів, домінованої пост-навчанням (Post-train). Основною конкурентною точкою зараз є «як ефективно масштабувати підкріплювальне навчання (RL) на Агентів». Ця зміна парадигми безпосередньо призвела до перебудови розподілу обчислювальних ресурсів. Лю повідомив, що під час епохи Chat співвідношення обчислювальних ресурсів для досліджень, попереднього навчання та пост-навчання становило приблизно 3:5:1; у той час як у сучасну епоху Агентів розумне співвідношення розподілу обчислювальних ресурсів стало 3:1:1, що свідчить про те, що інвестиції у попереднє та пост-навчання тепер майже рівні, і провідні команди моделей досягають співвідношення 1:1 у своїх інвестиціях у ці дві сфери. Крім того, вимоги до системної архітектури зазнали значних змін. Раніше інфраструктура RL переважно зосереджувалася навколо «двигунів моделі для виведення», які обробляли чисті текстові обчислення; тепер інфраструктура повинна бути орієнтована навколо «Агентів», підтримуючи гетерогенне планування кластерів і витримуючи неоднозначність того, що Агентів можуть переривати у складних робочих процесах через різні неконтрольовані фактори.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
266.94K Популярність
#
比特币Breaks79K
10.64K Популярність
#
IsraelStrikesIranBTCPlunges
34.02K Популярність
#
CryptoMarketsRiseBroadly
79.83K Популярність
#
WHCADinnerShootingIncident
10.46K Популярність

Закріпити

карта сайту

Луо Фулі: Великі моделі входять у еру постнавчання, провідні команди досягають співвідношення обчислень 1:1 для попереднього та постнавчання

Популярні теми

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Закріпити