Кто лучше всего использует Claude Code? Ответ может быть не программистом

> Оригинальный заголовок: Агентное кодирование и постоянные возвращения к экспертизе
> Автор оригинала: Anthropoic
> Перевод: Peggy
>

Примечание редактора: Этот доклад основан примерно на 400 000 сессиях Claude Code и обсуждает, как инструменты ИИ для программирования меняют отношения между человеком и кодом.

Самое важное открытие: в агентном программировании человек в основном решает «что делать», а Claude — «как делать». Пользователь берет на себя большую часть планирования, Claude — большую часть выполнения. Иными словами, ИИ берет на себя такие этапы реализации, как написание кода, изменение файлов, выполнение команд, отладка, но цели и оценка результатов по-прежнему зависят от человека.

Более того, эффективность использования Claude Code зависит не только от того, является ли пользователь программистом. В отчёте показано, что в задачах генерации кода успехи пользователей из профессий, не связанных с техникой — таких как юриспруденция, финансы, управление, научные исследования — уже близки к уровню инженеров-программистов. Настоящее влияние на результат оказывает понимание пользователем решаемой задачи.

Это означает, что ИИ-программирование снижает порог входа для реализации, но не для оценки. В будущем люди, разбирающиеся в бизнесе, сценариях и умеющие ясно формулировать требования и оценивать результаты, могут использовать ИИ эффективнее, чем просто умеющие писать код. ИИ не заменит автоматом предметные знания, наоборот — усилит их ценность.

Ниже — оригинальный текст:

Ключевые открытия

На основе существующих исследований мы предложили рамочную модель для изучения взаимодействия с интерактивными агентами программирования. Эта модель основана на анализе конфиденциальности примерно 400 000 сессий Claude Code, проведённых с октября 2025 по апрель 2026 года, и оценивает структуру задач, способы сотрудничества человека и ИИ, а также уровень успеха.

В типичной сессии человек отвечает за большинство планировочных решений — то есть решает «что делать», а Claude — за большинство исполнительных — то есть «как сделать». Чем больше профессиональных знаний у пользователя в конкретной области, тем больше работы вызывает команда Claude. В задачах кодирования средний уровень успеха у различных профессиональных групп — то есть выполнение задуманного, подтверждённое тестами, отправкой кода и т.п. — почти сравним с инженерами-программистами.

Чем выше профессиональный уровень пользователя, тем больше шансов, что сессия завершится успешно. Однако разница между средним и экспертом невелика. За семь месяцев наблюдений доля сессий, использующих отладку, почти сократилась вдвое, а способы использования сместились в сторону более энд-ту-энд подходов: развертывание и запуск кода, анализ данных, подготовка текстовых документов.

За эти семь месяцев ценность типичных задач почти во всех сферах работы выросла. Мы оценили её, сравнивая с предложениями на фриланс-рынке, и получили средний рост примерно на 25%.

Введение

Агентное программирование быстро развивается. С конца 2025 года доля проектов на GitHub, связанных с кодирующими агентами, удвоилась, а среднее время использования Claude Code — около 20 часов в неделю. Может ли человек без формального опыта программирования успешно управлять агентом для выполнения сложных технических задач? Как быстро эти инструменты распространяются и улучшаются, и как это скажется на более широком спектре знанийной работы? Пока мы не можем дать полный ответ, но по данным использования Claude Code уже можно заметить некоторые ранние сигналы.

Этот доклад основан на анализе конфиденциальных данных примерно 235 000 пользователей и около 400 000 интерактивных сессий за период с октября 2025 по апрель 2026 года, что даёт доказательства реального использования Claude Code. Он продолжает наши исследования автономных показателей в сессиях Claude Code и того, как эти инструменты меняют внутреннюю работу Anthropic. В статье предлагается рамочная модель для описания использования интерактивных помощников ИИ: что делают люди, кто это делает, и насколько успешно. Мы рассматриваем использование Claude Code через командную строку, Claude.ai или настольное приложение. Отслеживая, как меняется способ использования агентного программирования с ростом возможностей модели, мы лучше понимаем влияние этих инструментов на профессионалов и рынок труда в сфере знаний.

То, что происходит с Claude Code, возможно, предвещает будущее знанийой работы: агенты постепенно интегрируются в некодирующие задачи. Мы обнаружили, что Claude занимается всё более сложными и ценными задачами. В то же время, в агентном программировании сохраняется чёткое разделение труда: человек решает, что строить, а агент — как.

Также есть данные, что истинное усиление эффективности инструмента достигается за счёт предметных знаний, а не навыков программирования. Особенно успешны в этом области эксперты, которые легче восстанавливаются после ошибок и недоразумений. Однако разница между экспертами и средним пользователем невелика. Это говорит о том, что при достаточной компетентности в области человек может эффективно использовать такие инструменты, как глубоко профессионал.

Эти открытия позволяют сделать предварительные выводы о возможных изменениях на рынке труда. В наших данных успех зависит не от наличия программных навыков, а от понимания решаемой задачи. Если эти модели работают так же в экономике в целом, то это означает, что агентное программирование, хотя и поглощает часть задач, связанных с реализацией, всё же поощряет тех, кто действительно понимает, что решает. Агентное программирование не заменяет предметные знания — наоборот, чем больше понимания у работника, тем больше качественной работы он сможет поручить ИИ.

Распределение труда

Что делают люди с Claude Code

Чтобы понять, как используют Claude Code, мы классифицируем каждую сессию по одному из девяти рабочих режимов, наиболее точно описывающих её цель. Четыре из них связаны непосредственно с написанием или обслуживанием кода: создание новых решений, исправление ошибок, тестирование, а также организация работы других агентов или автоматизированных процессов. Ещё одна категория — управление программным обеспечением: развертывание, настройка, запуск и мониторинг систем. Есть две категории, связанные с пониманием «что делать»: понимание работы существующей системы и планирование изменений перед их реализацией. И наконец, две категории, не связанные с кодом или где код — лишь вспомогательный элемент: анализ данных и коммуникация через презентации и текстовые документы.

Около 56% сессий — это создание кода (25%), исправление кода (26%) или тестирование и организация работы кода (5%). Управление программным обеспечением — 17%, планирование и исследование — 14%, анализ данных и подготовка текстов — 13% (см. рис. 1).

> Рис. 1: Девять рабочих режимов. Каждая интерактивная сессия классифицируется по тому режиму, который наиболее точно её описывает.

Мы сначала просим модель проанализировать записи сессий и классифицировать каждую; затем, используя наш инструмент анализа конфиденциальности, сопоставляем результаты с телеметрическими данными каждой сессии, включая добавление или удаление строк кода. Эти два источника показывают очень высокое совпадение. Например, в сессиях, отмеченных как создание или изменение кода, более 90% случаев в телеметрике также показывают изменения кода. Подробнее — в приложении.

Кто принимает решения

Насколько автономен Claude Code? Оценки показывают, что его потенциал очень высок и продолжает расти. Например, в тестах METR модели уже могут самостоятельно выполнять задачи, ранее требовавшие часов работы человека, и самостоятельно преодолевать препятствия. Но как это выглядит на практике? В этой части мы рассматриваем, насколько в реальных сессиях человек и Claude берут на себя роль руководителя.

Изучая этот вопрос, мы рассматриваем два аспекта. Первый — насколько человек доверяет Claude принимать решения; второй — сколько действий он поручает агенту. Для этого мы создали классификатор, основанный на анализе содержания сессий, который выделяет все значимые решения и делит их на планировочные и исполнительные. Планировочные — что делать, как делать, что считать завершением; исполнительные — какие файлы менять, что писать, на каком языке, какие команды запускать. Затем классификатор определяет, кто за каждое решение отвечает — человек или агент — и выводит два процента: долю планировочных решений, порученных человеку, и долю исполнительных решений, порученных человеку.

В среднем человек принимает около 70% планировочных решений, но только 20% исполнительных (см. рис. 2). На практике агентное программирование формирует чёткое разделение труда: человек решает, что строить, агент — как.

Чтобы понять, насколько в сессии делегированы действия, мы не смотрим на содержание, а анализируем структуру. Сессии Claude Code состоят из обменов между человеком и агентом: пользователь даёт подсказки, Claude выполняет действия; затем пользователь снова даёт подсказку, и так далее. В типичной сессии таких раундов около четырёх. За период с октября по апрель в наших данных, каждый раз, когда пользователь даёт подсказку, Claude выполняет в среднем около 10 действий, иногда более 100. В каждом раунде Claude читает файлы, редактирует код, запускает команды, и в среднем пишет около 2400 слов.

Объем работы, который Claude выполняет между двумя проверками пользователя, во многом зависит от того, кто принимает решения. Когда пользователь контролирует выполнение, то есть принимает более 80% исполнительных решений, Claude делает примерно 8 действий за раунд. Когда же Claude берёт на себя более 80% планировочных решений, он выполняет около 16 действий.

> Рис. 2: Доля планировочных и исполнительных решений, принадлежащих Claude. Показано распределение, в каких случаях решения по «что делать» и «как делать» в сессиях приписываются Claude или пользователю. В типичных сессиях пользователь принимает около 70% планировочных решений, а Claude — около 80% исполнительных.

Профессиональный уровень

На основе каждой сессии Claude оценивает уровень профессионализма пользователя по пятибалльной шкале — от новичка до эксперта. Классификатор уровня учитывает три сигнала: точность команд пользователя, что он требует от Claude проверить, и кто чаще исправляет другого — пользователь или агент. Важно подчеркнуть, что этот уровень не совпадает с должностью или общими навыками, а относится именно к конкретной задаче. Например, опытный инженер, впервые спрашивающий о Rust, всё равно может быть новичком в этой задаче; бухгалтер, никогда не использовавший Python, если сможет точно объяснить, какие правила сверки должны выполняться в скрипте, и заметит ошибки при закрытии месяца — он будет экспертом по этой задаче.

В таблице ниже показано, как мы определяем уровни профессионализма в классификаторе, и приведены примеры запросов из открытого датасета SWE-chat. Диалог, классифицированный как «новичок», содержит общие инструкции без предметных знаний; диалог эксперта — демонстрирует глубокое понимание кода и технической среды.

> Таблица 1: Классификация профессиональных уровней. Примеры из реальных сессий, взятые из открытого датасета SWE-chat, с изменениями и анонимизацией, отмечены нашим классификатором. Многие примеры — из публичных данных о взаимодействии с агентами программирования.

Мы проанализировали связь между уровнем профессионализма и количеством действий и текста, вызываемых каждым подсказкой Claude. В типичных сессиях новичков одна подсказка вызывает около 5 действий и около 600 слов вывода; у экспертов — более чем вдвое больше, около 12 действий и 3200 слов, что в пять раз больше. Разрыв между уровнями заметен во всех типах задач и диапазонах ценности (см. рис. 3).

Эти показатели дополняют наши предыдущие исследования автономности Claude Code. Тогда мы отслеживали продолжительность работы агента и частоту автоматического одобрения его действий. В отличие от этого, наши показатели по распределению решений показывают, кто принимает важные решения в сессии, а количество действий и текста — насколько автономен каждый подсказка.

> Рис. 3: Чем более профессионален пользователь, тем больше работы выполняет Claude по каждой подсказке. Чем выше уровень профессионализма, тем больше действий (левая диаграмма) и текста (правая диаграмма), вызываемых одной подсказкой. Коробки — квартиль, медиана — внутри, точки — геометрическое среднее. Оба тренда статистически значимы (p < 0.001). После учёта режима работы, ценности задачи, месяца, профессии и серии модели, а также кластеризации по пользователю, тренды остаются значимыми: повышение уровня на один уровень увеличивает число действий на 9%, объём текста — на 13%.

Кто использует Claude Code и зачем

Пользователи

Чтобы понять, кто эти люди, мы по записям сессий определяем профессию каждого и сопоставляем с 23 основными категориями по классификации Бюро статистики труда США (SOC). Классификатор ориентируется только на сигналы: контекст, названия и структура файлов, упоминания документов или ресурсов, таких как юридические документы, клинические данные, финансовые отчёты, учебные материалы, а также используемую лексику. Важно: наличие «написания кода» само по себе не считается признаком программной профессии. Только если есть явные признаки работы с программным обеспечением или данными, сессия попадает в категорию «инженеры и математики». Например, если юрист пишет скрипт для автоматической проверки договоров, это всё равно считается юридической работой, даже если он пишет код. Если же нет признаков профессии, сессия не классифицируется.

В примерно 70% случаев нам удаётся определить профессию. Среди классифицированных — крупнейшая группа — «инженеры и математики», что неудивительно. Далее идут бизнес и финансы, искусство и медиа, управление, а также науки о жизни, физике и обществе. Самые быстро растущие среди некодирующих — управление, продажи и юриспруденция.

Работа

За период с октября 2025 по апрель 2026 года структура задач, выполняемых с помощью Claude Code, заметно изменилась. Самое заметное — доля сессий по исправлению ошибок снизилась с 33% до 19% (см. рис. 4). Вместо этого выросла доля задач, связанных с управлением кодом: от 14% до 21%. В два раза увеличилась доля написания и анализа данных — с 10% до 20%.

Ценность задач также выросла. Мы оценили её, сравнивая с рыночными ставками фрилансеров, и получили средний рост примерно на 27%. В разных сферах рост был разным: создание, управление и исправление кода — примерно на 43%, 34% и 32% соответственно. Эти оценки — очень приблизительные, и служат скорее для сравнения трендов, чем для точной оценки стоимости в долларах. Подробнее о методике оценки — в приложении.

> Рис. 4: Изменения в структуре задач и их ценности с октября 2025 по апрель 2026. За семь месяцев доля сессий по исправлению ошибок снизилась с 33% до 19%, а доля задач по управлению, анализу данных и подготовке документов выросла.

Успех зависит от того, что привносит пользователь

Оценка ценности задач — один из способов понять, как Claude Code помогает людям работать. Другой — это анализ успешных сессий и признаков, связанных с успехом. В целом, мы видим явную закономерность: чем выше профессиональный уровень пользователя, тем выше вероятность успеха. Особенно заметно — разрыв между новичками и средним уровнем больше, чем между средним и экспертами.

Перед анализом успешных сессий важно точно определить, что считать успехом. Мы не можем наблюдать реальные результаты в мире, и не можем напрямую спрашивать, удалось ли пользователю выполнить задуманное. Поэтому используем два метода оценки на основе записей сессий. Первый — классификатор, который после анализа всей сессии определяет, достиг ли пользователь своей цели, с вариантами: успех, частичный успех, неудача, без ясной цели. Второй — оценка доказательств успеха, ищущих подтверждения: коммиты, пулл-запросы, прохождение тестов, явное одобрение пользователя. Он выставляет баллы по шкале от 1 (нет сигнала) до 5 (много сильных признаков). Аналогично, есть классификатор признаков неудачи — ошибки, провалы тестов, повторные попытки, недовольство пользователя. Успех считается подтверждённым, если оба признака — успех и наличие сильных признаков — присутствуют. В анализе мы исключаем около 7.7% сессий, где успех не подтверждён.

Профессиональный уровень и отдача

Какие сессии наиболее вероятно завершатся успехом? В ответе — сильная связь с уровнем профессионализма. Некоторые могут усомниться: может, дело не в уровне, а в типе задач или других факторах? В этом разделе мы сравниваем одинаковые типы задач, одинаковую ценность, месяц, тему и профессию, чтобы понять влияние профессионализма.

> Таблица 2: Определение успеха и неудачи по классификатору. Примеры из реальных сессий SWE-chat, с изменениями и анонимизацией, отмечены нашим классификатором.

В целом, чем выше профессиональный уровень, тем выше шансы на успех. Например, у новичков по строгой метрике «подтверждённый успех» — 15%, частичный успех — 77%. У средних и экспертов — 28–33% подтверждённого успеха и 91–92% частичного (см. рис. 5).

Большая часть прироста достигается при переходе с новичка на средний уровень; между средним и экспертом — прирост замедляется. Детали регрессии — в приложении.

> Рис. 5: Связь профессионального уровня и исхода сессии. График показывает распределение результатов по уровням от новичка до эксперта. Левая — все сессии, правая — только те, где есть признаки проблем (больше 3 баллов по признакам неудачи), и их итоговые успехи и неудачи. Каждая точка — скорректированное отношение. Анализ основан на сравнении с одинаковым режимом работы, ценностью задачи, месяцем, темой и типом пользователя, чтобы исключить влияние этих факторов. Детали — в приложении. Ошибки и неудачи — аналогично.

Даже в сессиях с проблемами наблюдается градиент: когда есть сильные признаки неудачи, вероятность подтверждённого успеха увеличивается с уровнями профессионализма. В таких случаях подтверждённый успех у экспертов достигает 15%, у новичков — всего 4% (см. рис. 5). При более мягких критериях — хотя бы частичный успех — доли достигают 80% у опытных и 60% у новичков.

Также мы отслеживали обратную зависимость: чем выше уровень, тем ниже доля неудач. В частности, среди сессий без написания кода, около 19% новичков в итоге сдаются, тогда как у более опытных — только 5–7%. То есть, менее опытные пользователи чаще сдаются при трудностях. Часть ценности профессионализма — в умении вернуть агент в нужное русло.

Профессия важнее, чем уровень

Успешность по подтверждённым признакам у пользователей, связанных с программированием, — около 30%, у остальных — около 26%. В сессиях с кодом (хотя бы одна строка добавлена или изменена) эти показатели — 34% и 29%. При более мягких критериях разница сокращается: 89% и 88% частичных успехов. Разница в 5% — небольшая и не меняется за семь месяцев. В топ-10 профессий по численности разница между ними и инженерами — менее 7%. Управленцы показывают чуть лучшие показатели, что, возможно, связано с переносимостью управленческих навыков на командование агентами. Также это может быть связано с тем, что в оценке явно учитывается подтверждение, а менеджеры чаще выражают согласие, когда получают желаемый результат.

> Рис. 6: Уровень подтверждённого успеха и неудачи по профессиям. В сессиях, где есть хотя бы одна строка кода, по строгой метрике — успех и подтверждённый успех — показывается распределение по профессиям. В топ-10 — разница между профессиональными группами и «инженерами и математиками» не превышает 7%. Ошибки — доверительные интервалы 95%, рассчитанные по разным аккаунтам.

Перспективы

Результаты этого доклада рисуют картину, которая формируется: агентное программирование усиливает некоторые знания и навыки, одновременно заменяя другие. В задачах с кодом успехи всех профессий близки к уровню программных специалистов. Похоже, что использование кодирующих агентов делает наличие программных навыков менее важным для успеха.

При этом успешные сессии чаще связаны с предметными знаниями. Экспертные сессии показывают более чем вдвое выше уровень подтверждённого успеха по сравнению с новичками. В случаях проблем новичкам чаще приходится сдаваться. Такой режим взаимодействия — чем больше эксперт использует команд, тем больше он может добиться. Поэтому способность вести агента к успеху больше зависит от владения предметной областью, чем от навыков программирования. Чем больше у работника понимания предмета, тем больше он сможет поручить ИИ.

Это означает, что успех зависит не только от умения писать код, а в большей степени — от понимания задачи. Любой, кто хорошо разбирается в области, может добиться результатов, которые раньше казались недостижимыми. А те, у кого этого понимания нет, — используют тот же инструмент, но получают меньший эффект. Основной источник выгоды — это компетентность, а не мастерство. Обладание предметными знаниями уже даёт большую часть преимуществ; глубокая специализация — лишь небольшое дополнение.

Эти выводы — лишь начальные. Как и большинство исследований, мы не можем измерить реальные результаты в мире: например, использовался ли сгенерированный код или был заброшен, и приносил ли он экономическую выгоду. Также мы исключили неинтерактивное использование, которое составляет значительную часть активности. Создание системы для оценки таких случаев — задача будущего. Все наши классификации основаны на чтении сессий моделью. В приложении показано, что классификатор и независимые телеметрические данные в основном совпадают, и в большинстве случаев дают схожие оценки с экспертной. Но в масштабных сценариях автоматическая проверка всё ещё сложна; сессии Claude Code зачастую длинные и сложные, что затрудняет ручную разметку.

По мере развития моделей, изменения в пользователях и разделении труда, представление, описанное в этом докладе, будет обновляться. Надеемся, что эти показатели помогут отслеживать важные перемены: например, если отдача от профессионального уровня начнёт снижаться, это может означать, что модели начинают принимать ключевые решения вместо человека, и выгода расширяется от узкоспециализированных экспертов к более широкой аудитории. Если доля пользователей вне программной сферы, успешно завершающих кодирующие сессии, продолжит расти, это может означать, что программирование становится частью обычной работы в разных сферах, а не только узкой профессии. Эти перемены повлияют на то, кто и насколько сможет извлечь пользу из агентного программирования, и какие навыки станут наиболее ценными на рынке труда.

[Ссылка на оригинал]

Кликните, чтобы узнать о вакансиях в BlockBeats

Присоединяйтесь к официальному сообществу BlockBeats:

Телеграм-канал подписки: https://t.me/theblockbeats

Телеграм-группа: https://t.me/BlockBeats_App

Официальный аккаунт в Twitter: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено