Дослідження Anthropic: галузева експертиза важливіша за навички програмування у визначенні якості генерації Claude Code

Аналіз Anthropic приблизно 40 тисяч сесій взаємодії з Claude Code, близько 235 тисяч користувачів показав: ключовим фактором успіху або провалу AI-кодування є не вміння писати програми, а глибина розуміння сфери, в якій вирішується проблема.
(Передісторія: Anthropic випустила економічне дослідження Claude Code! Потенціал економії за допомогою AI-агента до 4 мільярдів)
(Додатковий контекст: Anthropic запустила панель моніторингу впливу AI: введіть професію — миттєво дізнайтеся, скільки роботи буде з’їсти AI)

Зміст статті

Перемикач

  • Як бухгалтер може стати «експертом» у очах Claude
  • Після помилки, хто може повернути агента на правильний шлях
  • Управлінці перемагають програмістів, різниця між професіями майже зникає

У новому дослідженні Anthropic проаналізували близько 235 тисяч користувачів і виявили, що справжнім фактором визначення успіху або провалу AI є рівень розуміння того, що саме потрібно вирішувати, — тобто той, хто дає команду, має знати свою проблему.

Як бухгалтер може стати «експертом» у очах Claude

Обсяг вибірки дослідження Anthropic охоплює з жовтня 2025 року по квітень 2026 року, близько 400 тисяч сесій Claude Code.

У звіті створено систему «п’яти рівнів професійної компетентності у завданнях», від новачка до експерта. Ключ у тому, що визначення «професійності» відрізняється від поширеного. Простими словами: наскільки добре ви розумієте проблему, яку потрібно вирішити, а не наскільки добре вмієте писати код.

Приклади з дослідження дуже наочні: досвідчений інженер, вперше пишучи Rust, у цій задачі вважається новачком; навпаки, бухгалтер, який ніколи не використовував Python, але чітко пояснює Claude, які умови мають бути виконані для звірки, і знаходить логічні помилки у місячних звітах — у цій задачі він є експертом.

Цифри прямо демонструють серйозність проблеми. Сесії новачка в середньому викликають близько 5 дій Claude і produce близько 600 слів; у експерта — близько 12 дій і 3200 слів, тобто у 2 рази більше дій і у 5 разів більше тексту.

Регресійний аналіз Anthropic показує, що з кожним підвищенням рівня професійної компетентності кількість дій Claude зростає приблизно на 9%, а обсяг вихідних даних — на 13%. Це залишається істинним навіть після врахування типу роботи, цінності завдання, місяця, професії та версії моделі.

Після помилки, хто може повернути агента на правильний шлях

Цифри щодо успіху ще більш переконливі. Anthropic визначила два рівні критеріїв успіху: «визначення успіху» (класіфікатор після завершення діалогу оцінює, чи досягнуто ціль) та «перевірка успіху» (мають бути наявні об’єктивні докази, наприклад, тестування, git-коміти, явне підтвердження користувача).

Загалом, чим вищий рівень професіоналізму користувача, тим вища ймовірність успіху сесії, і більша частка покращень зосереджена у низькому діапазоні шкали: різниця між новачком і середнім рівнем значна, а між середнім і експертом — ще більша. Anthropic виявила, що рівень перевірки успіху у сесій експертів у 2 рази перевищує рівень новачків.

Ще цікавіше — «відсоток виправлень після помилки». Вони відстежували сесії з проблемами, тобто з сигналами невдачі. У таких випадках рівень успіху перевірки зростає з 4% у новачків до 15% у експертів; частка частково успішних випадків у новачків — 60%, у середніх і експертів — 80-81%.

Різниця у відсотках відмов також очевидна. Коли сесія зазнає труднощів, у новачків є 19% шансів одразу зупинитися (визначення невдачі і нульовий код), тоді як у інших рівнів — лише 5-7%. Anthropic пояснює це тим, що професійна сфера цінна ще й тим, що вона дозволяє швидко повернути агента у правильний напрямок, коли він збився з курсу.

Це відкриття веде до несподіваного висновку: «розуміння проблеми» важливіше, ніж «знання інструментів». Адже, щоб розпізнати помилку у відповіді Claude, потрібно розуміти, де саме вона сталася; чітко формулювати межі задачі; і швидко виправляти, коли агент приймає дивні рішення.

Управлінці перемагають програмістів, різниця між професіями майже зникає

Дані Anthropic руйнують ще один очікуваний стереотип: професійний бекграунд не так важливий, як здається.

Загалом, рівень успіху у сесіях з програмістами становить близько 30%, у інших професіях — 26%. Якщо враховувати лише ті сесії, де був створений хоча б частковий код, різниця становить 34% проти 29%, але при цьому, якщо розглядати «хоча б частковий успіх», обидві групи майже однакові: 89% проти 88%.

Ще більш цікаво, що у топ-10 професій кожна має рівень успіху не більше ніж на 7 відсоткових пунктів нижче за інженерів. Управлінці навіть трохи випереджають інженерів у цьому показнику. Anthropic припускає, що це пов’язано з тим, що управлінці звикли ставити завдання і формулювати вимоги, і цей навик легко переноситься на керування агентами.

Робочий режим також швидко змінюється за сім місяців. Частка сесій, пов’язаних з виправленням помилок, зменшилася з 33% до 19%, майже наполовину; операції з розгортання, налаштування та запуску pipeline зросли з 14% до 21%; написання текстів і аналіз даних — з 10% у два рази до 20%.

Інакше кажучи, користувачі все більше застосовують Claude Code для «побічних» завдань, не тільки для написання коду.

Економічна цінність завдань також зросла. Anthropic оцінила ринкову вартість кожної сесії за фріланс-ринком і за сім місяців вона зросла в середньому на 27%; у задачах побудови — на 43%, у операційних — на 34%, у виправленнях — на 32%.

У кінці звіту Anthropic пропонує запам’ятати концепцію: прибуток приходить від «competence, not mastery», тобто «достатнього рівня володіння», а не глибокого майстерності.

Маючи базове або середнє розуміння сфери, можна отримати більшість переваг; при цьому, підвищуючись до рівня експерта, приріст успіху стає менш вираженим.

Зі зростанням поширення AI-інструментів, вони підсилюють не навички програмування, а глибину розуміння проблеми. Люди, які не розуміють, що саме потрібно вирішувати, навіть із потужнішими моделями лише швидше губляться.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено