Хто найкраще використовує Claude Code? Відповідь може бути не програмістом

> Оригінальна назва: Агентне кодування та постійні повернення до експертизи
> Автор оригіналу: Anthropoic
> Переклад: Peggy
>

Редакторський коментар: цей звіт базується на близько 400 000 сесіях Claude Code, і обговорює, як AI-інструменти для програмування змінюють стосунки між людиною і кодом.

Найсуттєвіше відкриття полягає в тому, що в програмуванні агентів людина здебільшого визначає «що робити», а Claude — «як робити». Користувачі беруть на себе більшість планувальних рішень, а Claude — більшу частину виконавчих. Тобто, AI зараз бере на себе написання коду, зміну файлів, запуск команд, налагодження тощо, але цільові установки і оцінка результатів залишаються залежними від людини.

Ще важливіше, що ефективність використання Claude Code не залежить лише від того, чи є користувач програмістом. Звіт показує, що у задачах генерації коду, користувачі з юридичної, фінансової, управлінської, наукової та інших не технічних професій мають рівень успіху вже майже з такими ж показниками, як і програмісти. Справжнім фактором, що впливає на результат, є розуміння користувачем проблеми, яку потрібно вирішити.

Це означає, що AI-програмування знижує бар’єр входу для реалізації, але не для суджень. У майбутньому, ті, хто розуміє бізнес, сценарії, чітко формулює вимоги і оцінює результати, можливо, будуть краще використовувати AI, ніж ті, хто просто вміє писати код. AI не автоматично замінить галузеві знання; навпаки, він посилює цінність галузевих знань.

Нижче наведено оригінал:

Ключові відкриття

На основі попередніх досліджень ми запропонували рамкову модель для вивчення інтерактивного програмування агентів. Вона базується на аналізі конфіденційності близько 400 000 сесій Claude Code з жовтня 2025 по квітень 2026 року, що дозволяє оцінити склад задач, спосіб співпраці людини і AI, а також рівень успіху.

У типовій сесії людина відповідає за більшу частину планувальних рішень — тобто визначає «що робити», а Claude — за більшу частину виконавчих, тобто «як зробити». Чим більше професійних знань у користувача в конкретній галузі, тим більше роботи виконує Claude за командою. У задачах кодування середній рівень успіху у різних професійних груп — тобто чи було виконано початкову ідею, підтверджену тестами, зразками або поданням коду — майже з рівнем програмістів.

Чим сильніше професійна компетентність користувача, тим більше шансів, що сесія завершиться успіхом. Однак різниця між користувачами середнього рівня і експертами не дуже велика. За сім місяців спостережень кількість сесій для налагодження зменшилася майже вдвічі, натомість зросла кількість випадків використання цілком енд-до-енд підходів: розгортання і запуск коду, аналіз даних, створення нефункціональної документації.

За цей період цінність типових задач майже зросла у всіх сферах роботи: за оцінками, базованими на ринкових цінах фріланс-послуг, середній приріст становить близько 25%.

Вступ

Програмування агентів швидко набирає популярності. З кінця 2025 року кількість проектів на GitHub, що використовують кодуючих агентів, подвоїлася, а середній час використання Claude Code — 20 годин на тиждень. Чи зможуть люди без формального досвіду програмування успішно керувати агентами для виконання складних технічних завдань? Як швидке впровадження цих інструментів і їх здатність до розвитку вплинуть на ширше коло знаннєвої праці? Відповіді поки що немає, але з даних використання Claude Code можна почати бачити перші сигнали.

Цей звіт базується на аналізі конфіденційності близько 235 000 користувачів і 400 000 інтерактивних сесій у період з жовтня 2025 по квітень 2026 року, що дає реальні докази способів використання Claude Code. Він продовжує дослідження автономності Claude Code у сесіях і того, як він змінює внутрішню роботу Anthropic. У ньому пропонується рамкова модель для опису використання інтерактивних AI-помічників: що роблять люди, хто і як виконує роботу, і чи досягається успіх. Ми зосереджені на використанні Claude Code через командний рядок, Claude.ai або настільний додаток. Аналізуючи, як змінюється спосіб використання агентів із зростанням можливостей моделей, ми краще зрозуміємо їхній вплив на професіоналів і ринок праці.

Події на Claude Code, можливо, передвіщають майбутнє знаннєвої праці: агенти поступово інтегруються у нефункціональні задачі. Ми бачимо, що Claude виконує більш складні і цінні задачі. Водночас, у програмуванні агентів зберігається чіткий розподіл праці: людина визначає, що створювати, а агент — як це зробити.

Ми також маємо дані, що справжнім фактором посилення ефекту інструментів є галузеві знання, а не навички програмування. Зокрема, експерти у галузі мають більший успіх і швидше відновлюються після помилок і непорозумінь. Однак різниця між середнім користувачем і експертом не дуже велика. Це свідчить, що достатня компетентність у галузі дозволяє ефективно використовувати такі інструменти, як глибокий фахівець.

Ці відкриття дають змогу зробити попередні висновки про можливі зміни на ринку праці. У наших даних успіх залежить від того, чи розуміє користувач проблему, а не від його програмістського досвіду. Якщо ця модель пошириться, то AI-інструменти, можливо, почнуть виконувати частину реалізаційних задач, але й винагорода буде тим більша, чим глибше розуміння проблеми. Програмування агентів не замінює галузеві знання. Навпаки, чим більше розуміння має працівник, тим більше високоякісної роботи він може отримати від AI.

Розподіл праці

Що роблять люди з Claude Code

Щоб зрозуміти, як саме використовують Claude Code, ми класифікували кожну сесію за дев’ятьма моделями роботи, що найкраще описують її ціль. Чотири з них безпосередньо стосуються написання або підтримки коду: створення нових речей, виправлення пошкодженого, тестування коду, а також оркестрування інших агентів або автоматичних ліній. Ще одна група — операції з програмним забезпеченням: розгортання, налаштування, запуск і моніторинг систем. Дві інші — більш орієнтовані на визначення «що робити»: розуміння роботи існуючої системи і планування змін перед початком роботи. Останні дві — не пов’язані з кодом або лише допоміжні: аналіз даних і комунікація через презентації та інші текстові документи.

Близько 56% сесій складаються з написання коду (25%), виправлення коду (26%) або тестування і оркестрування (5%). Операції з софтом — 17%, планування або дослідження — 14%, аналіз даних і створення текстів — 13% (див. малюнок 1).

> Малюнок 1: Дев’ять моделей роботи. Кожна інтерактивна сесія класифікується за моделлю, що найкраще її описує.

Спершу модель читає запис сесії і класифікує її; потім, за допомогою нашого інструменту аналізу конфіденційності, результати порівнюються з телеметричними даними, автоматично зібраними для кожної сесії, включно з додаванням або видаленням рядків коду. Взаємна відповідність дуже висока. Наприклад, у сесіях, позначених класифікатором як створення або редагування коду, понад 90% випадків у телеметричних даних також показують зміни у коді. Деталі — у додатку.

Хто приймає рішення

Наскільки сильна автономія Claude Code? Оцінки показують, що її потенціал уже високий і продовжує зростати. Наприклад, у тестах METR, сучасні моделі здатні самостійно виконувати раніше людські задачі, що займали кілька годин, і самостійно долати перешкоди. Але як це виглядає на практиці? Тут ми зосереджені на тому, скільки керування процесом делегують люди і скільки дій виконує агент.

Ми досліджуємо це з двох точок зору. Перша — наскільки люди довіряють агенту приймати рішення; друга — скільки дій вони йому делегують. Щоб зрозуміти розподіл рішень у сесії, ми створили конфіденційний класифікатор для визначення, які рішення приймає людина, а які — агент. Він виділяє всі важливі рішення і класифікує їх на планувальні (що робити, яким методом, що вважається завершеним) і виконавчі (які файли змінювати, що писати, якою мовою, які команди запускати). Потім кожне рішення привласнюється або людині, або агенту, і для кожної сесії генерується два показники: частка планувальних рішень, що їх прийняла людина, і частка виконавчих рішень, що їх виконала людина.

В середньому, людина приймає близько 70% планувальних рішень, але лише 20% виконавчих (див. малюнок 2). У реальності, у процесі програмування агентом, чітко простежується розподіл праці: людина визначає, що створювати, а агент — як.

Щоб зрозуміти, наскільки делеговані дії, ми дивимося не на зміст, а на структуру сесії. Сесії Claude Code складаються з чергувань запитів користувача і відповідей агента: користувач дає підказки, агент виконує дії; потім знову користувач — і так далі. У типовій сесії таких раундів близько чотирьох. За нашими даними з жовтня по квітень, кожен запит викликає в середньому 10 дій агента, іноді — понад 100. У кожному раунді агент читає файли, редагує код, запускає команди і в середньому видає 2400 слів.

Обсяг роботи, яку виконує Claude між двома перевірками користувача, значною мірою залежить від того, хто приймає рішення. Якщо користувач зберігає контроль над процесом, тобто приймає понад 80% виконавчих рішень, тоді кожен раунд містить близько 8 дій. Якщо ж агент бере на себе більшу частину планування — понад 80% — тоді кількість дій досягає максимуму — близько 16.

> Малюнок 2: Частки планувальних і виконавчих рішень, що їх приймає Claude. Показано, яку частку рішень у типових сесіях приймає агент і людина. У типовій сесії, користувач приймає близько 70% планувальних рішень, а Claude — близько 80% виконавчих.

Професійний рівень

За кожною сесією Claude оцінює рівень професійної компетентності користувача за п’ятибальною шкалою — від новачка до експерта. Класифікатор рівня враховує три сигнали: точність команд користувача, запити на перевірку, а також частоту, з якою користувач виправляє агент або навпаки. Важливо зазначити, що цей рівень не співвідноситься з посадою або загальними навичками, а є конкретним для задачі. Наприклад, досвідчений інженер, що вперше запитує про Rust, може бути початківцем у цій мові. А бухгалтер, що ніколи не працював з Python, але точно вказує, які правила перевірки потрібно застосувати для конкретного скрипта, і вміє врахувати крайні випадки — він буде експертом у цій задачі.

У таблиці наведено визначення рівнів професійної компетентності у класифікаторі та приклади запитів із відкритих даних SWE-chat. У діалогах, класифікованих як «новачки», переважають загальні інструкції без специфічних знань. У «експертних» — глибоке розуміння коду і технічного середовища.

> Таблиця 1: Класифікатор рівнів професійної компетентності. Приклади з реальних сесій, змінені, анонімізовані і стиснені, позначені нашим класифікатором. Більшість прикладів — з відкритого датасету SWE-chat.

Ми кількісно оцінюємо зв’язок між рівнем і кількістю вихідних даних і активності Claude. У типових сесіях новачків кожне запитання викликає близько 5 дій і 600 слів відповіді; у сесіях експертів — понад удвічі більше дій — близько 12, і 3200 слів, тобто у п’ять разів більше (див. малюнок 3). Різниця між рівнями спостерігається у всіх типах робіт і для всіх цінових сегментів.

Ці показники доповнюють наші попередні дослідження автономності Claude Code. Там ми відстежували тривалість роботи агентів і частоту автоматичного схвалення їхніх дій. Тут ми фокусуємося на тому, хто приймає ключові рішення у сесії, а також на тому, скільки вихідних даних і дій викликає кожна команда користувача.

> Малюнок 3: Чим більш професійний користувач, тим більше роботи виконує Claude за кожним запитом. Вищий рівень професійної компетентності асоціюється з більшою кількістю дій (ліворуч) і більшою кількістю тексту (праворуч). В межах коробки — між квартилями, лінії — 5-95 перцентилі, точка — геометричне середнє. Обидві тенденції — статистично значущі (p < 0.001). Після контролю за моделлю роботи, цінністю задач, місяцями, професією і серією моделей, а також з урахуванням кластеризації користувачів, ця тенденція залишається значущою: кожен рівень підвищується — кількість дій зростає на 9%, обсяг тексту — на 13%.

Хто використовує Claude Code і для чого

Користувачі

Щоб зрозуміти, хто саме використовує ці інструменти, ми за допомогою аналізу сесій визначили професію кожного користувача і віднесли її до однієї з 23 основних категорій за класифікацією Бюро статистики праці США (SOC). Класифікатор базується лише на таких сигналах: контексті, файлах і структурах, що завантажуються на початку сесії, посиланнях на джерела або результати, наприклад, юридичних документів, клінічних даних, фінансових звітів, навчальних матеріалів, а також на словнику користувача. Вказано, що «писання коду» самі по собі не є доказом професії програміста. Лише якщо є явні сигнали, що це робота з софтом або даними, сесія потрапляє до категорії «інженерія та математика». Наприклад, якщо юрист створює скрипт для автоматичної перевірки контрактів, то, навіть якщо основна діяльність — написання коду, сесія класифікується як юридична. Якщо ж немає жодних сигналів про професію, сесія не класифікується.

Ми можемо визначити професію приблизно у 70% випадків. У цих випадках найбільша група — «інженерія та математика», що цілком логічно, оскільки вона охоплює більшість програмних задач. Наступні — бізнес і фінанси, мистецтво і медіа, управління, а також біологія, фізика і соціальні науки. У нашій вибірці швидко зростають професії управління, продажів і юриспруденції.

Робота

З жовтня 2025 до квітня 2026 року структура задач, що виконуються з Claude Code, зазнала значних змін. Найбільш помітна — зменшення частки сесій для виправлення пошкодженого коду з 33% до 19% (див. малюнок 4). Замість цього зросла кількість сесій, пов’язаних із роботою з кодом: операції з софтом — з 14% до 21%, аналіз даних і створення документації — майже вдвічі, з 10% до 20%.

Цінність задач також зросла. Ми оцінили її, базуючись на ринкових цінах фріланс-послуг, і скоригували за реальними даними з відкритих вакансій. За цим показником, середній економічний ефект сесії зріс на 27% з жовтня по квітень. Найбільше зростання — у задачах створення, роботи і ремонту коду: 43%, 34% і 32% відповідно. Оцінки досить приблизні, тому їх використовуємо для порівняння трендів між задачами, а не для точних грошових оцінок. Детальніше — у додатку.

> Малюнок 4: Зміни у структурі та цінності задач Claude Code з жовтня 2025 по квітень 2026. Показано частки різних моделей роботи у сесіях за сім місяців. Зменшення частки виправлення пошкодженого коду з 33% до 19%, зростання операцій з софтом, аналізу даних і створення документації.

Успіх залежить від того, що приносить користувач

Оцінка цінності задач — один із способів зрозуміти, як Claude Code допомагає виконувати роботу. Інший — подивитися, скільки сесій закінчуються успіхом і які їхні характеристики. У всіх показниках успіху ми помітили чіткий тренд: чим вищий рівень професійної компетентності користувача, тим більша ймовірність успіху. Більше всього різниця між новачками і середнім рівнем, тоді як між середнім і експертами — менша.

Перед аналізом успішних сесій потрібно чітко визначити, що таке успіх. Ми не можемо бачити реальні результати у світі, не можемо запитати напряму, чи виконано ціль. Тому використовуємо два доповнювальні методи на основі записів сесій. Перший — «визначення успіху», коли класифікатор після аналізу всього запису визначає, чи досягнута ціль, — успіх, частковий успіх, провал або без цілі. Потім два додаткові класифікатори оцінюють рівень доказів: один шукає підтвердження успіху, зокрема через активність у git (коміти, пул-реквести, проходження тестів, підтвердження користувача), і ставить оцінку від 1 до 5. Інший — шукає ознаки невдачі, помилок, повторних спроб, невідповідностей. Успіх вважається підтвердженим, якщо обидва класифікатори дають позитивний результат. Аналіз зосереджений на тому, наскільки сесія була успішною або ні, тому ми виключаємо ті, що класифікатор визначив як «без цілі», — їх близько 7.7% від усіх.

Віддача за рівнем професійної компетентності

Які сесії найчастіше закінчуються успіхом? Виявляється, що рівень професійної компетентності має значний вплив.

Можливо, хтось вважає, що це не справжній фактор. Можливо, експерти просто працюють із іншими задачами або мають інші характеристики. У цій частині ми порівнюємо сесії з однаковими типами задач, однаковою оцінкою цінності, тим самим місяцем, темою і професією, щоб побачити, як рівень впливає на результат.

> Таблиця 2: Визначення успіху і провалу за класифікатором. Приклади з реальних сесій SWE-chat, змінені, анонімізовані і стиснені, позначені нашим класифікатором.

У всіх показниках, що визначають успіх, користувачі з вищим рівнем професійної компетентності мають більший шанс на успіх. Сесії, оцінені як «новачки», у найжорсткішому критерії «підтверджений успіх» мають 15% успіху і 77% часткового успіху. У сесіях з рівнем «середній» і вище — відповідно 28–33% підтвердженого успіху і 91–92% часткового (див. малюнок 5).

Більша частина виграшу — у підвищенні з новачка до середнього рівня; між середнім і експертом — приріст менший. Деталі — у додатку.

> Малюнок 5: Залежність результату сесії від рівня професійної компетентності. Показано, як змінюється ймовірність успіху або провалу залежно від рівня. Лівий графік — усі сесії, середній і правий — лише ті, що мали проблеми (з високим рівнем «провалу»). Кожна точка — скоригована частка. Порівнюємо лише сесії з однаковим типом роботи, цінністю, місяцем, темою і професією, щоб оцінити вплив рівня. Деталі — у додатку. Відрізки — довірчі інтервали. Більшість — дуже малі і не видно.

У сесіях із проблемами також спостерігається градієнт: коли фіксується підтверджена невдача, ймовірність «загубитися» зростає з новачка до експерта. Це може включати помилки, провал тестів, повторні спроби або невдоволення користувача. У таких сесіях, з урахуванням всіх змін, підтверджений успіх зростає з 4% у новачків до 15% у експертів (див. малюнок 5). За більш м’якими критеріями, частка часткових успіхів у новачків — 60%, у середніх і експертів — 80–81%.

Ми також простежили зворотний зв’язок: рівень професійної компетентності і різні показники невдачі. Важливо, що у цій частині аналізу, сесії, що вважаються провалами, — ті, що не досягли навіть часткового успіху. Якщо сесія з проблемою і без написаного коду вважається «забутою», то у новачків таких — 19%, у інших — 5–7%. Це означає, що менш досвідчені користувачі, стикаючись із труднощами, частіше здаються. Частина цінності професіонала — у здатності повернути агенту правильний напрямок.

Можливо, професія важливіша за рівень

У користувачів, що працюють у сферах, пов’язаних із софтом, рівень підтвердженого успіху становить близько 30%, у інших — 26%. У сесіях із генерацією коду (хоча б один рядок додано або змінено) — 34% і 29% відповідно (див. малюнок 6). За більш м’якими критеріями, різниця між цими групами ще менша. У таких сесіях, частка часткових успіхів у обох групах — близько 88–89%. Різниця у 5% незначна і не змінюється за сім місяців, хоча рівень успіху зростає у обох. У найбільших групах професій у нашому датасеті, різниця у рівні успіху з програмістами — менше ніж на сім відсотків. Найвищий рівень підтвердженого успіху — у менеджерів, можливо, через їхні навички керування, що переносяться на керування агентами. Також це може частково залежати від нашої методики: підтвердження у сесіях залежить від явної згоди користувача, а менеджери звикли висловлювати задоволення.

> Малюнок 6: Рівень підтвердженого успіху і провалу у сесіях за професією. Показано, що у сесіях, де додано або змінено хоча б один рядок коду, рівень підтвердженого успіху у десяти найбільших професійних груп не перевищує 7%. Різниця між групами — менше ніж на сім відсотків, з довірчими інтервалами 95%, що враховують різницю між акаунтами.

Перспективи

Результати цього звіту малюють картину, що формується: програмування агентів посилює окремі знання і навички, одночасно замінюючи інші. У задачах генерації коду рівень успіху у різних професій майже не відрізняється від рівня програмістів. Здається, що AI-інструменти роблять менш важливим наявність програмістського досвіду для успішного виконання задач.

Водночас, у успішних сесіях більше проявляється галузевих знань. Експертні сесії мають у два рази вищий рівень підтвердженого успіху, ніж новачки. У випадках проблем, новачки частіше здаються і відмовляються від роботи. Співпраця сама по собі показує, що експерти можуть керувати Claude за кожною командою, отримуючи більше роботи. Тому здатність довести агенту до успіху більше залежить від глибини галузевих знань, ніж від навичок писати код. Той, хто добре розуміє свою галузь, може виконати раніше недосяжні технічні задачі. А люди без такого розуміння, навіть із тим самим інструментом, отримають менше. Основний внесок — у здатність керувати і спрямовувати, а не у глибину знань. Оволодіння галузевими знаннями вже дає більшу частину виграшу; глибока спеціалізація — додатковий невеликий бонус.

Ці відкриття — лише початкові. Як і більшість досліджень, ми не можемо оцінити реальні результати у світі — наприклад, чи використаний код потім був застосований або залишився без діла, і чи приніс він економічну вигоду. Також у звіті виключено неінтерактивне використання, що становить значну частину активності. Створення рамки для вимірювання таких випадків — одна з цілей майбутніх досліджень. Водночас, усі наші класифікації базуються на аналізі сесій моделлю, і в додатку показано, що класифікатор узгоджується з незалежними телеметричними даними і більшістю реальних оцінок. Однак у масштабних сценаріях автоматична класифікація залишається складною, а сесії Claude Code — особливо довгими і складними, що ускладнює ручне маркування.

З розвитком моделей, користувачів і розподілу праці між ними, картина у цьому звіті буде постійно оновлюватися. Сподіваємося, що ці показники допоможуть відслідковувати важливі зміни: якщо рівень професійної компетентності почне давати менший приріст, це означатиме, що моделі вже починають самостійно приймати ключові рішення, і користувачам залишиться лише керувати. Якщо ж частка успішних сесій поза професійною сферою зросте, це може свідчити, що створення програмного забезпечення стає частиною звичайної роботи у різних галузях, а не лише у вузьких професіях. Це змінить, хто і скільки зможе отримати користі від AI-програмування, і які навички будуть найбільш цінними на ринку праці.

[Посилання на оригінал]

Клікніть, щоб дізнатися про вакансії BlockBeats

Запрошуємо приєднатися до офіційної спільноти BlockBeats:

Telegram-канал: https://t.me/theblockbeats

Telegram-група: https://t.me/BlockBeats_App

Офіційний акаунт у Twitter: https://twitter.com/BlockBeatsAsia

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено