Windsurf використав RL для навчання спеціальної маленької моделі для виявлення багів, і внутрішні оцінки вже зрівнялися з Claude Opus 4.6

robot
Генерація анотацій у процесі

ME Новини повідомляють, 15 квітня (UTC+8), за даними моніторингу Датчі Beating, що материнська компанія AI-інструменту програмування Windsurf, Cognition AI, у співпраці з компанією з тренування AI Applied Compute, навчила модель для виявлення помилок у коді SWE-Check за допомогою підкріплювального навчання. Ця модель аналізує поточні зміни користувача (diff), автоматично позначає можливі помилки та надає рекомендації щодо їх виправлення. У тестах, що проводилися на даних, подібних до тренувальних, F1-міра SWE-Check досягла рівня Claude Opus 4.6 (різниця зменшилася з 0.09 до 0); у тестах на даних із іншого розподілу різниця зменшилася з 0.49 до 0.29, хоча вона й залишилася позаду передових моделей, але вже демонструє значний прогрес. Основні переваги — швидкість і вартість: швидкість роботи SWE-Check у десять разів вища за передові моделі, а витрати на обчислення значно знижені, що дозволяє здійснювати миттєве та безкоштовне виявлення помилок у IDE, чого не можуть зробити безпосередньо великі моделі, такі як Opus 4.6.

Два важливі підходи у методі тренування заслуговують уваги:

  1. Лінійне нагородження (reward linearization): команда прагне оптимізувати глобальний показник F-beta, але цей показник не можна безпосередньо розкласти на окремі зразки. Вони за допомогою першої апроксимації перетворили глобальний показник у функцію нагороди, яку можна обчислювати для кожного зразка, що дозволяє ефективно піднімати глобальний показник під час тренування. На ранніх етапах рівень помилкових сповіщень був високим, тому команда зменшила beta з 1 до 0.5, щоб підкреслити точність.
  2. Двоступеневе додаткове тренування: перший етап — максимізація здатності виявляти помилки без урахування затримки; другий етап — введення штрафу за затримку, базуючись на статистиці, скільки часу користувачі витрачають, щоб переключитися після сповіщення. Такий підхід краще, ніж одночасне оптимізування двох цілей, оскільки останній може застрягти у локальному мінімумі, наприклад, навчившись швидко реагувати, але поверхнево аналізуючи.

Попередня версія SWE-Check вже доступна у Windsurf Next (гарячі клавіші cmd+U), а згодом вона буде інтегрована у повну версію Windsurf.
(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити