Преодоление порога обучения моделей с более чем триллионом параметров: открытый исходный код prime-rl позволяет обучать 131k контекст на 28 серверах

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, Prime Intellect выпустила версию 0.6.0 распределённой рамки обучения с усилением на основе обучения с подкреплением prime-rl, которая преодолела порог обучения с RL для гибридных экспертных моделей MoE с триллионами параметров в задачах с очень длинным контекстом. Большие модели могут читать сверхдлинные тексты длиной 256k символов, что не является редкостью, но в обучении с усилением для моделирования через самостоятельные попытки и ошибки, чтобы модель могла проводить рассуждения, графические карты должны сохранять огромные промежуточные активы длиной 131k на протяжении всего процесса, что вызывает рост потребления видеопамяти в сотни и тысячи раз. Ранее для этого требовалось огромное кластер из нескольких тысяч графических карт, а prime-rl 0.6.0 смог запустить обучение с RL для GLM-5 с контекстом 131k всего на 28 серверах H200, при этом время одного шага было менее 5 минут. Чтобы решить проблему блокировки ресурсов графических карт при сложных задачах генерации кода и других задач с попытками и ошибками, вызываемых редкими длинными задачами, тормозящими глобальный цикл, рамка разрушила традиционный механизм синхронного ожидания, применяя полностью декуплированную асинхронную архитектуру RL. В фоновом режиме тренажёр после вычисления новых весов не ждёт завершения текущих задач с попытками и ошибками, а прямо во время генерации текста модели в реальном времени отправляет обновления. Распределённые задачи продолжают использовать старую стратегию для обеспечения скорости, а новые задачи внедряют KV-кэш, принудительно пересоздавая его. Для решения проблемы несогласованности темпов обучения и рассуждения при асинхронных обновлениях, которая может привести к логическим сбоям модели, рамка внедрила технологию маршрутизации с воспроизведением R3, которая обрабатывает распределение данных экспертов на низком уровне, избегая задержек, вызванных преобразованием данных, и снижая несоответствие между двумя сторонами до десяти процентов, что значительно стабилизирует асинхронное обучение. В плане использования ресурсов на низком уровне рамка тщательно спроектирована для полного устранения проблемы переполнения видеопамяти длинными текстами. В режиме рассуждения используется архитектура разделения чтения и записи, предотвращающая зависание генерации текста из-за чтения большого количества контекста; одновременно несколько графических карт совместно используют знания экспертов, а технология Mooncake объединяет неиспользуемую память и диски нескольких серверов в общий кэш-пул. Для параллельных вычислений сверхдлинных текстов, учитывая уникальный механизм разреженного внимания DSA в GLM-5, рамка разработала специальное параллельное решение, которое обеспечивает глобальный обзор модели и одновременно сводит к минимуму обмен данными между слоями графических карт до одного раза. В обучении используется интеграция DeepGEMM для реализации блокового масштабирования FP8 по предложению DeepSeek V3, что позволяет использовать одинаковую точность и вычислительные ядра как для обучения, так и для рассуждения, устраняя сбои, вызванные погрешностями в точности. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено