Windsurf использовал RL для обучения небольшой модели, специально предназначенной для поиска ошибок, и в внутренней оценке достиг равенства с Claude Opus 4.6

robot
Генерация тезисов в процессе

ME News Новости, 15 апреля (UTC+8), по данным мониторинга 动察 Beating, материнская компания Windsurf, занимающаяся AI-программными инструментами, Cognition AI, совместно с компанией по обучению AI Applied Compute, обучили модель SWE-Check, специально предназначенную для обнаружения ошибок в коде с помощью усиленного обучения. Эта модель анализирует текущие изменения кода пользователя (diff), автоматически отмечает возможные введённые ошибки и предлагает исправления. В оценке, проводимой на данных, распределённых так же, как и обучающие, F1-скор SWE-Check достиг уровня Claude Opus 4.6 (разница снизилась с 0.09 до 0); в межраспределённой оценке разница сократилась с 0.49 до 0.29, хотя модель всё ещё уступает передовым, но уже показывает значительный прогресс. Основные преимущества — скорость и стоимость: скорость работы SWE-Check в десять раз выше, чем у передовых моделей, а стоимость вывода значительно снижена, что позволяет осуществлять мгновенное и бесплатное обнаружение ошибок прямо в IDE, чего не могут обеспечить крупные модели вроде Opus 4.6. В методике обучения есть два важных дизайнерских решения: 1. Линейное вознаграждение (reward linearization): команда стремится оптимизировать глобальный показатель F-beta, но этот показатель нельзя напрямую разбить на отдельные образцы. Они используют приближение первого порядка, преобразуя глобальный показатель в функцию награды, которую можно вычислять по образцам, что позволяет эффективно повышать глобальный показатель в процессе обучения. В ранних версиях уровень ложных срабатываний был слишком высоким, команда уменьшила beta с 1 до 0.5, чтобы подчеркнуть точность. 2. Двухэтапное обучение: первый этап — чистое максимизирование способности обнаружения ошибок без штрафов за задержку; второй этап — введение штрафов за задержку, основанных на статистическом распределении времени, которое требуется реальным пользователям, чтобы переключиться после срабатывания обнаружения. Такой поэтапный подход лучше, чем одновременная оптимизация двух целей, так как последний склонен застревать в локальных минимумах, например, учиться очень быстрым, но поверхностным анализам. Предварительная версия SWE-Check уже доступна в Windsurf Next (горячие клавиши cmd+U), а в дальнейшем она войдёт в полноценную версию Windsurf. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить