Пробиття порогу у навчанні великих моделей з понад трильйоном параметрів: відкритий код prime-rl дозволяє 28 серверам тренувати 131k контекстів

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, Prime Intellect випустила версію 0.6.0 розподіленого фреймворку для навчання з підсиленням на основі зміцненого навчання prime-rl, що подолала поріг навчання RL для гібридної експертної моделі з трильйонами параметрів MoE у задачах з наддовгим контекстом. Великі моделі здатні обробляти наддовгі тексти довжиною 256k символів, але під час навчання з підсиленням, щоб модель могла виконувати логіку через самостійне випробування та помилки, графічний процесор повинен зберігати величезні проміжні активи довжиною 131k, що призводить до багатократного зростання витрат пам’яті. Раніше для цього потрібен був великий кластер з тисячі графічних карт, але версія prime-rl 0.6.0 змогла запустити навчання з підсиленням для GLM-5 з контекстом 131k всього на 28 серверах H200, при цьому час на один крок контролюється в межах 5 хвилин. Щоб вирішити проблему блокування ресурсів графічних карт через довгі задачі, такі як генерація складного коду з випробуваннями та помилками, що затримують глобальний ритм, фреймворк порушує традиційний механізм синхронного очікування, застосовуючи повністю роз’єднану асинхронну архітектуру RL. Фоновий тренажер після обчислення нових ваг не чекає завершення поточних задач, а безпосередньо під час генерації тексту моделі в реальному часі оновлює ваги. Завдання, що вже розподілені, продовжують використовувати стару стратегію для збереження швидкості, а нові задачі інжектують KV-кеш, примусово відновлюючи кеш. Щоб уникнути логічних збоїв через розбіжності у швидкості тренування та inference під час асинхронних оновлень, фреймворк вводить технологію маршрутизації з повторним відтворенням R3, яка обробляє розподіл експертів безпосередньо на нижньому рівні, уникаючи затримок, викликаних перетворенням даних, зменшуючи розбіжність між двома сторонами до десятої частини, що значно стабілізує асинхронне навчання.
Щодо оптимізації ресурсів, фреймворк детально спроектований для повного вирішення проблеми переповнення пам’яті графічних карт через довгі тексти. На inference-сторони застосовується архітектура розділення читання та запису, щоб запобігти зависанню моделі через обробку великої кількості попередніх підказок, а також використовується спільне з кількома картами експертне знання та технологія Mooncake для об’єднання вільної пам’яті та дисків кількох серверів у спільний кеш-буфер. Для паралельних обчислень над наддовгими текстами, враховуючи унікальний механізм розрідженої уваги DSA у GLM-5, фреймворк розробив спеціальну паралельну схему, яка забезпечує глобальний огляд моделі та зменшує обсяг обміну даними між шарами графічних карт до одного разу. На тренувальній стороні застосовується DeepGEMM для реалізації DeepSeek V3 та технології масштабування блоків FP8, що дозволяє використовувати однакову точність та ядра обчислень для тренування і inference, кардинально усуваючи проблеми з точністю, що призводять до збоїв у тренуванні. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено