Предупреждение о сбое режима: награда RL выросла, максимум не изменился, это нужно подчеркнуть

Посмотреть Оригинал
MeNews
Команда NLP Стэнфордского университета демонстрирует новые достижения в области автоматизированных исследований ИИ
Стэнфордский NLP на ICML 2026 продемонстрировал, как автоматизированный исполнитель превращает предварительную и последующую тренировку LLM в исполнительную среду, используя обратную связь для повышения эффективности исследований. Два метода: эволюционный поиск превосходит GRPO в задачах последующей тренировки (69,4% против 48,0%), а найденные рецепты для предварительной тренировки быстрее, чем nanoGPT (19,7 минуты против 35,9 минут), оба завершены в пределах десяти раундов поиска; обучение с усилением на основе исполнительной награды склонно к сбою модели, хотя и повышает среднюю награду, но не увеличивает максимум. Эта работа указывает направление для автоматизированных исследований ИИ, ориентированных на исполнение.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено