Роулі: Велика модель входить у епоху посттренувального навчання, співвідношення обчислювальної потужності для попереднього та посттренувального навчання провідних команд досягає 1:1

robot
Генерація анотацій у процесі

ME Новини повідомлення, 24 квітня (UTC+8), згідно з моніторингом Датчі Beating, керівник команди великих моделей Xiaomi Ло Фулі зазначив, що конкуренція у великих моделях перейшла від епохи Chat, домінованої попереднім навчанням, до епохи агентів, керованої пост-навчанням (Post-train). Основним сучасним напрямком є «як ефективно масштабувати підсилене навчання (RL) на агентських моделях». Ця зміна парадигми безпосередньо спричинила перебудову розподілу обчислювальних ресурсів. Ло Фулі повідомив, що у епоху Chat співвідношення обчислювальних ресурсів для досліджень, попереднього навчання та пост-навчання становило приблизно 3:5:1; у сучасну епоху агентів розумне співвідношення становить 3:1:1, тобто вклад у попереднє та пост-навчання майже однаковий, і провідні команди моделей вже вкладають у ці дві сфери співвідношення 1:1. Одночасно, вимоги до системної архітектури також зазнали значних змін. Раніше інфраструктура RL переважно базувалася на «двигуні моделі для виведення» для обробки чистого тексту; тепер інфраструктура повинна бути орієнтована на «агента», підтримувати розподіл гетерогенних кластерів і бути здатною витримувати невизначеність, коли агент переривається через різні неконтрольовані фактори у складних робочих потоках. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити