Пусть ИИ сам изменяет код обучения, рекурсивное обновление трех алгоритмов для оптимизации рекордов

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу 动察 Beating, AI-стартап Recursive опубликовал первые результаты экспериментов своей научной системы. Система способна автоматически предлагать идеи, писать код, запускать эксперименты и проверять их, показывая превосходные результаты по трем бенчмаркам: обучение с фиксированным бюджетом, ускоренное обучение NanoGPT и оптимизация GPU kernel. Эксперименты показывают, что в задачах с ясной целью и быстрым обратным связью система уже может находить области для оптимизации, которые пропускает человек.
В рамках ограниченного по времени 5 минут обучения NanoChat Autoresearch, система снизила потерю при проверке BPB до 0.9109, что сокращает время обучения до достижения той же потери примерно на 23% (ускорение в 1.3 раза). Ключевым изменением является усиление краткосрочной памяти контекста: хэширование биграмм и триграмм токенов в фиксированную таблицу встраивания, а затем интеграция их через обучаемое управление в путь внимания, что позволяет использовать локальную информацию с очень низкими затратами.
В уже более двух лет оптимизированном сообществом NanoGPT Speedrun, время обучения до заданной потери было сокращено с 79.7 секунд до 77.5 секунд. Методы оптимизации включают перенос вычислений FP8 в путь внимания для повышения пропускной способности, а также переписывание объединенного ядра MLP, сохраняющего только квадратичные ReLU активации и пересчитывающего промежуточные переменные при обратном распространении для снижения использования памяти.
В бенчмарке GPU kernel оптимизации SOL-ExecBench, система на NVIDIA B200 повысила средний балл SOL (достижение теоретического предела) с 0.699 до 0.754, сокращая разрыв с физическим пределом на 18%. Варианты решений включают масштабирование GRN с последующими слоями, упаковку оценок и индексов маршрутизации экспертов в ключи и значения для внутри-warp редукции, а также использование низкоуровневых PTX-инструкций для упаковки FP4 в ядре NVFP4 MoE и сохранение FP32 в промежуточных расчетах для снижения накопления ошибок.
Для предотвращения злоупотреблений AI при фальсификации результатов система вводит многоуровневую проверку корректности для фильтрации недействительных ускорений.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено