Cognition AI та Applied Compute спільно розробили модель SWE-Check, яка за допомогою підкріплювального навчання реалізує виявлення помилок у коді, швидкість і вартість якої значно перевищують передові моделі. Хоча у тестуванні розрив із Claude Opus 4.6 зменшився, потрібно подальше вдосконалення. Ця модель використовує лінійне нагородження та двоступеневий метод навчання, спрямовані на підвищення точності виявлення та ефективності роботи. Попередня версія вже запущена на Windsurf Next.

MeNews

2026-04-15 12:40:17

Генерація анотацій у процесі

ME Новини повідомляють, 15 квітня (UTC+8), за даними моніторингу Датчі Beating, що материнська компанія AI-інструменту програмування Windsurf, Cognition AI, у співпраці з компанією з тренування AI Applied Compute, навчила модель для виявлення помилок у коді SWE-Check за допомогою підкріплювального навчання. Ця модель аналізує поточні зміни користувача (diff), автоматично позначає можливі помилки та надає рекомендації щодо їх виправлення. У тестах, що проводилися на даних, подібних до тренувальних, F1-міра SWE-Check досягла рівня Claude Opus 4.6 (різниця зменшилася з 0.09 до 0); у тестах на даних із іншого розподілу різниця зменшилася з 0.49 до 0.29, хоча вона й залишилася позаду передових моделей, але вже демонструє значний прогрес. Основні переваги — швидкість і вартість: швидкість роботи SWE-Check у десять разів вища за передові моделі, а витрати на обчислення значно знижені, що дозволяє здійснювати миттєве та безкоштовне виявлення помилок у IDE, чого не можуть зробити безпосередньо великі моделі, такі як Opus 4.6.

Два важливі підходи у методі тренування заслуговують уваги:

Лінійне нагородження (reward linearization): команда прагне оптимізувати глобальний показник F-beta, але цей показник не можна безпосередньо розкласти на окремі зразки. Вони за допомогою першої апроксимації перетворили глобальний показник у функцію нагороди, яку можна обчислювати для кожного зразка, що дозволяє ефективно піднімати глобальний показник під час тренування. На ранніх етапах рівень помилкових сповіщень був високим, тому команда зменшила beta з 1 до 0.5, щоб підкреслити точність.
Двоступеневе додаткове тренування: перший етап — максимізація здатності виявляти помилки без урахування затримки; другий етап — введення штрафу за затримку, базуючись на статистиці, скільки часу користувачі витрачають, щоб переключитися після сповіщення. Такий підхід краще, ніж одночасне оптимізування двох цілей, оскільки останній може застрягти у локальному мінімумі, наприклад, навчившись швидко реагувати, але поверхнево аналізуючи.

Попередня версія SWE-Check вже доступна у Windsurf Next (гарячі клавіші cmd+U), а згодом вона буде інтегрована у повну версію Windsurf.
(Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GatePreIPOsLaunchesWithSpaceX
120.7K Популярність
#
GateMarchTransparencyReport
42.34K Популярність
#
IsraelStrikesIranBTCPlunges
29.76K Популярність
#
GoldmanSachsFilesBitcoinIncomeETF
776.12K Популярність
#
USBlocksStraitofHormuz
749.69K Популярність

Закріпити

карта сайту

Windsurf використав RL для навчання спеціальної маленької моделі для виявлення багів, і внутрішні оцінки вже зрівнялися з Claude Opus 4.6

Популярні теми

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Закріпити