Ло Фулі: велика модель вступає в епоху пост-тренування, співвідношення обчислювальних потужностей переднього та заднього тренування у найкращих команд досягає 1:1

robot
Генерація анотацій у процесі
ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Beating (Dongcha), керівник команди великих моделей Xiaomi Ло Фулі зазначив, що конкуренція великих моделей повністю перейшла від епохи Chat з домінуванням попереднього навчання до епохи Agent з домінуванням пост-навчання (Post-train). Поточним ключовим завданням є «як правильно масштабувати (scaling) навчання з підкріпленням (RL) на Agent». Ця зміна парадигми безпосередньо призвела до перерозподілу обчислювальних потужностей. Ло Фулі розкрив, що в епоху Chat співвідношення обчислювальних потужностей, що використовуються для досліджень, попереднього навчання та пост-навчання, становило приблизно 3:5:1; а в нинішню епоху Agent розумне співвідношення розподілу обчислювальних потужностей змінилося на 3:1:1, тобто витрати на попереднє та пост-навчання стали майже однаковими, і зараз провідні команди моделей досягли співвідношення 1:1 у цих двох напрямках. Водночас вимоги до системної архітектури також зазнали кардинальних змін. Раніше інфраструктура RL була зосереджена на «двигуні логічного висновку моделі» для обробки чисто текстових обчислень; тепер інфраструктура повинна бути зосереджена на «Agent», підтримувати планування гетерогенних кластерів і бути здатною терпіти невизначеність через переривання Agent у складних робочих процесах через різні некеровані фактори. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено