Перший тест: AI змінює код, і більшість змін можуть "зробити гірше"! Програмістам не варто хвилюватися за свою роботу?

Question

Останнім часом можливості великих моделей штучного інтелекту у програмуванні стрімко зростають, і провідні компанії у галузі штучного інтелекту постійно змагаються у тестах на програмування, оновлюючи рекорди. Це викликає у багатьох програмістів занепокоєння: чи не скоро штучний інтелект почне забирати у них роботу?

Однак нове дослідження, спільно проведене університетом Чжуншань і компанією Alibaba, заспокоїло програмістів.

4 березня обидві організації опублікували результати оцінювання. Тест називається «SWE-CI: оцінювання здатності агентів підтримувати кодові бази через безперервну інтеграцію» (SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration). Це перше системне та суворе оцінювання довгострокових можливостей підтримки коду 18 великими моделями від 8 провідних компаній, таких як Anthropic, OpenAI, Kimi і DeepSeek.

У тесті було виконано 100 завдань, загальний обсяг токенів перевищив 10 мільярдів. Результати показали, що серія Claude Opus демонструє найкращі результати.

Що стосується контролю деградації продуктивності, більшість великих моделей, таких як Qianwen, DeepSeek, MiniMax, Kimi і Doubao, показали явну слабкість. Тобто, у процесі довгострокової підтримки коду штучний інтелект може «зробити код гіршим, ніж був».

Китайська команда створила першу у світі систему оцінювання здатності великих моделей штучного інтелекту підтримувати код у довгостроковій перспективі

Довгий час основними характеристиками стандартних критеріїв оцінювання програмних можливостей ШІ були «снімки» стану — тобто, оцінювання за принципом «один запит — одне рішення».

Однак цей підхід лише перевіряє, чи може модель написати правильний код, і не відображає реальні потреби у безперервній і довгостроковій підтримці програмного забезпечення.

У реальності зрілі програми рідко створюються за один раз, вони є результатом довготривалої підтримки. Закон Леймана стверджує, що якість програмного забезпечення з часом природним чином погіршується. Витрати на підтримку становлять від 60% до 80% всього життєвого циклу програми.

Щоб оцінити здатність ШІ підтримувати код у довгостроковій перспективі, університет Чжуншань і команда Alibaba створили критерій SWE-CI — перший у світі системний тест, що спеціалізується на оцінюванні довгострокової підтримки коду великими моделями. Це не просто перевірка «один раз правильно», а оцінка того, чи здатна модель, як справжній інженер-програміст, підтримувати якість коду протягом місяців і навіть років розробки.

Розробка SWE-CI пройшла через чотири рівні строгого відбору, у результаті сформовано високоякісний набір тестів.

Спершу команда відібрала 4923 репозиторії на GitHub, що містили Python-код, які підтримувалися понад три роки, мали понад 500 зірок, включали файли залежностей і повний набір модульних тестів, а також використовували ліцензії MIT або Apache 2.0. Потім із них витягнули 8311 пар комітів із стабільними залежностями та змінами понад 1000 рядків коду. За допомогою автоматичного створення Docker-середовищ і механізмів самовідновлення залежностей залишили 1458 робочих пар. Нарешті, шляхом запуску тестів, відбору за рівнем успішності, аналізу часових проміжків і кількості комітів визначили 100 фінальних завдань.

Кожне з 100 завдань відповідає реальному етапу розвитку програмного проекту, що тривав у середньому 233 дні і включав 71 послідовний коміт. Також команда розробила складний механізм співпраці двох агентів — архітектора і програміста — що імітує реальні розподілені ролі у команді розробників: архітектор аналізує вимоги і формулює технічне рішення, програміст реалізує код.

Для адаптації до довгострокових ітераційних тестів SWE-CI ввів два ключові показники: «нормалізовані зміни» та «EvoScore» (оцінка еволюції).

«Нормалізовані зміни» базуються на кількості пройдених тестів і перетворюють стан коду у числовий діапазон [-1, 1], де позитивне значення означає покращення функціональності, а негативне — її погіршення.

EvoScore більш орієнтований на оцінку здатності моделі у майбутніх модифікаціях.

Результати тестування показали, що Claude Opus лідирує за всіма показниками, а більшість моделей у 75% завдань руйнують початковий код.

Команда провела системне тестування 18 провідних моделей восьми компаній — Moonshade, Anthropic, Zhipu, Qianwen, MiniMax, DeepSeek, OpenAI і Doubao — з використанням понад 10 мільярдів токенів тестових даних. Це масштаб дослідження є безпрецедентним у галузі оцінювання програмних можливостей ШІ.

Результати показали, що з часом здатність моделей підтримувати код значно прискорюється.

З графіка видно, що нові версії моделей одного й того ж виробника стабільно кращі за попередні, а після 2026 року приріст стає особливо помітним, з підвищенням EvoScore. Це свідчить, що сучасні моделі все більше переходять від простого виправлення дефектів до довгострокової підтримки і розвитку коду.

Найкращі результати демонструє серія Claude Opus: з Claude-opus-4.5 до Claude-opus-4.6 їхній EvoScore піднявся до близько 0,9, що суттєво випереджає конкурентів.

Серед китайських моделей найбільший прогрес показує серія Zhipu GLM, яка стала найсильнішою у другому ешелоні. За нею йдуть Qwen і MiniMax, що демонструють позитивну динаміку. Kimi і Doubao також покращилися, але без проривів.

Дослідження виявило, що різні виробники мають різні стратегії тренування моделей.

Зокрема, MiniMax, DeepSeek і GPT-серія від OpenAI більше орієнтовані на довгострокову вигоду, що дає їм переваги у довгострокових завданнях підтримки коду. Це означає, що ці моделі при генерації коду схильні використовувати стратегії, що сприяють довгостроковій еволюції і стабільності, а не лише короткостроковому виправленню.

У порівнянні, Kimi і Zhipu GLM більше фокусуються на швидкому отриманні результату у короткостроковій перспективі.

Ще одна особливість — моделі серії Qianwen, Doubao і Claude демонструють баланс між короткостроковою ефективністю і довгостроковою підтримкою, застосовуючи більш збалансовані тренувальні стратегії.

Крім того, дослідження виявило важливий факт: у довгостроковій підтримці всі моделі погано справляються з контролем деградації продуктивності (Regression).

Деградація — це ключовий показник стабільності якості програмного забезпечення. Якщо тест, який раніше був пройденим, після оновлення коду провалюється, це означає, що сталася деградація. Вона не лише погіршує користувацький досвід, а й у довгостроковій перспективі може спричинити системне погіршення якості системи через накопичення змін.

Команда виміряла «рівень нульової деградації» — частку завдань, у яких за весь період підтримки не було жодних порушень функціоналу. Чим вищий цей показник, тим стабільніша система.

Результати показали, що з усіх 18 моделей лише Anthropic Claude Opus зберігає понад 50% завдань без деградації, тоді як більшість мають цей показник нижче 25%.

Зокрема, Claude-opus-4.6 має 76% завдань без деградації, що є найвищим показником. Це означає, що у більшості сценаріїв її продуктивність залишається стабільною. Друге місце посідає Claude-opus-4.5 з 51%. У той час як Kimi-K2.5 і GLM-5 мають близько 37% і 36% відповідно, що є досить високим рівнем стабільності, але все ж значно поступається лідерам.

Інші моделі, такі як GPT-5.2, Qwen 3.5-plus, MiniMax-M2.5 і DeepSeek-V3.2, мають рівень без деградації нижче 25%, що означає, що у понад 75% випадків вони руйнують початковий функціонал коду, спричиняючи деградацію.

Проте, з точки зору оновлення версій, провідні виробники швидко прогресують. Наприклад, «нульова деградація» у серії Claude-opus зросла з 51% у версії 4.5 до 76% у версії 4.6, а у Zhipu GLM — з 14% у GLM-4.6 і 4.7 до 36% у GLM-5.

Проте, навіть із цим, більшість моделей ще далекі від ідеалу у довгостроковій підтримці, і їхня здатність уникати деградації залишається низькою, що свідчить про значний простір для покращення у автоматизації довгострокової розробки.

Результати тестування SWE-CI змусили галузь усвідомити, що «писати код» і «підтримувати код» — це дві різні навички. Для виробників моделей штучного інтелекту важливо постійно вдосконалювати здатність до підтримки, контролю деградації і архітектурного проектування, що може стати ключем до перемоги у другій половині конкуренції.

Переглянути оригінал

Перший тест: AI змінює код, і більшість змін можуть "зробити гірше"! Програмістам не варто хвилюватися за свою роботу?

Популярні теми

GateAIGateClawOfficiallyLaunches

SECAndCFTCNewGuidelines

IsraelStrikesIranBTCPlunges

IranConfirmsLarijaniAssassinated

FedRateDecision

Популярні активності Gate Fun

GIAOT

Giaot

BTCS6

BTCS6

山寨产品

山寨产品

gate

gate

$OOPS

$OOPS

Закріпити