Луо Фулі: Великі моделі входять у еру постнавчання, провідні команди досягають співвідношення обчислень 1:1 для попереднього та постнавчання

Згідно з моніторингом Dongcha Beating, керівник команди великих моделей Xiaomi Лю Фулі зазначив, що конкуренція у великих моделях змістилася з епохи Chat, домінованої попереднім навчанням, до епохи Агентів, домінованої пост-навчанням (Post-train). Основною конкурентною точкою зараз є «як ефективно масштабувати підкріплювальне навчання (RL) на Агентів». Ця зміна парадигми безпосередньо призвела до перебудови розподілу обчислювальних ресурсів. Лю повідомив, що під час епохи Chat співвідношення обчислювальних ресурсів для досліджень, попереднього навчання та пост-навчання становило приблизно 3:5:1; у той час як у сучасну епоху Агентів розумне співвідношення розподілу обчислювальних ресурсів стало 3:1:1, що свідчить про те, що інвестиції у попереднє та пост-навчання тепер майже рівні, і провідні команди моделей досягають співвідношення 1:1 у своїх інвестиціях у ці дві сфери. Крім того, вимоги до системної архітектури зазнали значних змін. Раніше інфраструктура RL переважно зосереджувалася навколо «двигунів моделі для виведення», які обробляли чисті текстові обчислення; тепер інфраструктура повинна бути орієнтована навколо «Агентів», підтримуючи гетерогенне планування кластерів і витримуючи неоднозначність того, що Агентів можуть переривати у складних робочих процесах через різні неконтрольовані фактори.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити