Модель SWE-Check, разработанная в сотрудничестве между Cognition AI и Applied Compute, использует усиленное обучение для обнаружения ошибок в коде, при этом скорость и стоимость значительно превосходят передовые модели. Несмотря на сокращение разрыва с Claude Opus 4.6 в оценочных тестах, требуется дальнейшая оптимизация. Эта модель использует линейное вознаграждение и двухэтапный метод обучения, направленные на повышение точности обнаружения и эффективности работы. Предварительная версия уже запущена на Windsurf Next.

MeNews

2026-05-08 09:06:33

Генерация тезисов в процессе

МЕ Новости, 15 апреля (UTC+8), по данным мониторинга 动察 Beating, материнская компания Windsurf, использующая ИИ-инструменты программирования, Cognition AI, совместно с компанией по обучению ИИ Applied Compute, обучили модель SWE-Check, специально предназначенную для обнаружения ошибок в коде, с помощью обучения с усилением. Эта модель анализирует текущие изменения в коде пользователя (diff), автоматически отмечает возможные введённые ошибки и даёт рекомендации по исправлению. В оценке, проводимой на данных, распределённых так же, как и обучающие, F1-скор SWE-Check достиг уровня Claude Opus 4.6 (разница снизилась с 0.09 до 0); в межраспределённой оценке разница сократилась с 0.49 до 0.29, всё ещё уступая передовым моделям, но уже демонстрируя значительный прогресс. Основные преимущества — скорость и стоимость: скорость работы SWE-Check в десять раз выше, чем у передовых моделей, а стоимость вывода значительно снижена, что позволяет осуществлять мгновенное и бесплатное обнаружение ошибок прямо в IDE, чего не могут обеспечить крупные модели вроде Opus 4.6. В методике обучения есть два важных дизайнерских решения: 1. Линейное вознаграждение (reward linearization): команда стремилась оптимизировать глобальный показатель F-beta, но этот показатель нельзя напрямую разбить на отдельные образцы. Они использовали приближение первого порядка, преобразуя глобальный показатель в функцию награды, которую можно вычислять по образцу, что позволяет эффективно повышать глобальный показатель в процессе обучения. В ранних версиях уровень ложных срабатываний был слишком высоким, команда увеличила β с 1 до 0.5, чтобы подчеркнуть точность. 2. Двухэтапное обучение: первый этап — чистое максимизирование способности обнаружения ошибок без штрафов за задержку; второй этап — введение штрафов за задержку, основанных на статистическом распределении времени, которое требуется реальным пользователям, чтобы переключиться после срабатывания обнаружения. Такой поэтапный подход превосходит одновременную оптимизацию двух целей, так как последний склонен застревать в локальных оптимумах, например, учиться очень быстрому, но поверхностному анализу. Предварительная версия SWE-Check уже запущена в Windsurf Next (горячие клавиши cmd+U), а затем перейдёт в полноценную версию Windsurf. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
792.05K Популярность
#
BitcoinFallsBelow80K
95.03M Популярность
#
IsraelStrikesIranBTCPlunges
44.37K Популярность
#
IranUSConflictEscalates
96.97K Популярность
#
OilPriceRollerCoaster
309.43K Популярность

Закрепить

Карта сайта

Windsurf использовал RL для обучения небольшой модели, специально предназначенной для поиска ошибок, и в внутренней оценке достиг равенства с Claude Opus 4.6

Популярные темы

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Закрепить