Кто лучше всего использует Claude Code? Ответ может быть не программистом

Автор: Anthropoic; Перевод: Peggy, Blockchain Movement

Этот доклад основан примерно на 400 000 сессиях Claude Code, обсуждая, как инструменты ИИ для программирования меняют отношения между человеком и кодом.

Самое важное открытие: в программировании с помощью интеллектуальных агентов человек в основном решает «что делать», а Claude — «как делать». Пользователь берет на себя большую часть планирования, Claude — большую часть выполнения. Иными словами, ИИ берет на себя такие этапы реализации, как написание кода, изменение файлов, выполнение команд, отладка, но постановка целей и оценка результатов по-прежнему зависят от человека.

Более того, эффективность использования Claude Code зависит не только от того, является ли пользователь программистом. В отчёте показано, что в задачах генерации кода пользователи из профессий, таких как право, финансы, управление, научные исследования, достигают почти такой же успешности, как и инженеры-программисты. Настоящее влияние на результат оказывает то, понимает ли пользователь проблему, которую нужно решить.

Это означает, что ИИ-программирование снижает порог входа для реализации, но не для оценки. В будущем люди, разбирающиеся в бизнесе, сценариях и умеющие ясно формулировать требования и оценивать результаты, могут оказаться более эффективными в использовании ИИ, чем просто умеющие писать код. ИИ не заменяет профессиональные знания, а скорее усиливает их ценность.

Ниже — оригинальный текст:

Ключевые открытия

На основе существующих исследований мы предложили рамочную модель для изучения взаимодействия с интерактивными интеллектуальными агентами при программировании. Эта модель основана на анализе конфиденциальности примерно 400 000 сессий Claude Code, проведённых с октября 2025 по апрель 2026 года, и оценивает состав задач, способы взаимодействия человека и ИИ, а также уровень успеха.

В типичной сессии человек отвечает за большинство планировочных решений — то есть решает «что делать», а Claude — за большинство исполнительных решений — то есть «как сделать». Чем больше профессиональных знаний у пользователя в конкретной области, тем больше работы вызывает команда Claude. В задачах программирования средний уровень успеха — то есть выполнение изначальной задачи, подтверждённое тестами, коммитами и т. п. — у разных профессиональных групп почти сравним с успехом у инженеров-программистов.

Чем выше профессиональный уровень пользователя, тем больше шансов, что сессия завершится успешно. Однако разница между средним и экспертом невелика. За семь месяцев наблюдений доля сессий, связанных с отладкой, почти сократилась вдвое, а способы использования сместились в сторону более «сквозных» сценариев: развертывание и запуск кода, анализ данных, подготовка текстовых документов.

За эти семь месяцев ценность типичных задач выросла почти во всех сферах работы. Мы оценили её, сравнивая с объявлениями о вакансиях фриланс-площадок, и получили средний рост примерно на 25%.

Введение

Интеллектуальные агенты для программирования быстро набирают популярность. С конца 2025 года доля проектов на GitHub, связанных с кодирующими агентами, удвоилась, а среднее время использования Claude Code — около 20 часов в неделю. Могут ли люди без формального опыта программирования успешно управлять агентами для выполнения сложных технических задач? Как быстрое внедрение этих инструментов и их развитие повлияют на более широкие сферы знаний? Пока мы не можем дать полный ответ, но по данным использования Claude Code можно заметить некоторые ранние сигналы.

Этот доклад основан на анализе конфиденциальности примерно 235 000 пользователей и 400 000 интерактивных сессий за период с октября 2025 по апрель 2026 года, предоставляя доказательства реального использования Claude Code. Он продолжает наши исследования автономности Claude Code в сессиях и того, как он меняет внутреннюю работу компании Anthropoc. В статье предлагается рамочная модель для описания использования интерактивных ИИ-ассистентов: что делают люди, кто это делает, и насколько успешно. Мы рассматриваем использование Claude Code через командную строку, Claude.ai или настольное приложение. Отслеживая, как меняется способ использования программирования с помощью агентов по мере роста возможностей модели, мы лучше понимаем влияние этих инструментов на профессионалов-программистов и рынок труда знаний.

То, что происходит с Claude Code, возможно, предвещает будущее сферы знаний: агенты постепенно интегрируются в некодирующую работу. Мы видим, что Claude занимается всё более сложными и ценными задачами. В то же время, в программировании с помощью агентов сохраняется чёткое разделение труда: человек решает, что строить, а агент — как.

Также есть свидетельства того, что истинным усилителем эффективности инструментов является профессиональное знание области, а не мастерство программирования. Особенно это касается экспертов, которые легче добиваются успеха и быстрее восстанавливаются после ошибок и недоразумений. Однако разница между экспертами и средним пользователем невелика. Это говорит о том, что при достаточной компетентности в области человек может эффективно использовать такие инструменты, как глубоко профессиональный специалист.

Эти открытия позволяют сделать предварительные выводы о возможных изменениях на рынке труда. В наших данных успех зависит не от того, прошёл ли человек обучение программированию, а от того, понимает ли он проблему, которую решает. Если эти модели подтвердятся в экономике в целом, это означает, что инструменты программирования с помощью агентов, хотя и автоматизируют часть задач, ориентированных на реализацию, одновременно поощряют тех, кто действительно понимает проблему. Создавать код для агентов — не значит заменять профессиональные знания. Чем больше человек вкладывает понимания в работу, тем лучше работает агент.

Распределение труда

Что делают люди с Claude Code

Чтобы понять, как используют Claude Code, мы классифицируем каждую сессию по одной из девяти рабочих моделей, которая наиболее точно описывает её цель. Четыре из них связаны с написанием или обслуживанием кода: создание новых решений, исправление ошибок, тестирование и оркестровка других агентов или автоматизированных процессов. Ещё одна категория — управление программным обеспечением: развертывание, настройка, запуск и мониторинг систем. Есть две категории, связанные с пониманием «что делать»: понимание работы существующей системы и планирование изменений перед их реализацией. И наконец, две категории — не связанные с кодом или с помощью в кодировании: анализ данных и коммуникация через презентации и текстовые документы.

Около 56% сессий — это создание кода (25%), исправление ошибок (26%) или тестирование и оркестровка (5%). Управление программным обеспечением — 17%, планирование или исследование — 14%, анализ данных и подготовка текстов — 13% (см. рис. 1).

> Рис. 1: Девять рабочих моделей. Каждая интерактивная сессия классифицируется по той модели, которая лучше всего описывает её цель.

Мы сначала просим модель проанализировать запись сессии и классифицировать её; затем, используя наш инструмент анализа конфиденциальности, сопоставляем результаты с телеметрическими данными каждой сессии, включая добавление или удаление строк кода. Эти источники показывают очень высокую согласованность. Например, в сессиях, отмеченных как создание или изменение кода, более 90% случаев в телеметрике также показывают изменения в коде. Подробнее — в приложении.

Кто принимает решения

Насколько автономна Claude Code? Оценки показывают, что его потенциал очень высок и продолжает расти. Например, в тестах METR модели уже могут самостоятельно выполнять задачи, ранее требовавшие часов работы человека, и самостоятельно преодолевать препятствия. Но как это выглядит на практике? В этой части мы рассматриваем, сколько руководства дают человеку и Claude в реальных сессиях.

Мы анализируем это с двух сторон. Первая — насколько человек доверяет решениям Claude; вторая — сколько действий он поручает агенту. Для понимания разделения решений в сессии мы создали классификатор, который на основе содержания определяет, какие решения принимает человек, а какие — агент. Он выделяет все важные решения: планировочные (что делать, как считать завершённым, какую задачу решить) и исполнительные (какие файлы менять, что писать, на каком языке, какие команды запускать). Затем классификатор определяет, кто за каждое решение отвечает — человек или агент, и выводит два числа: долю планировочных решений, порученных человеку, и долю исполнительных решений, порученных человеку.

В среднем человек принимает около 70% планировочных решений, но только 20% исполнительных (см. рис. 2). В реальных сессиях чётко прослеживается разделение труда: человек решает, что строить, а агент — как.

Чтобы понять, насколько человек делегирует действия, мы не смотрим на содержание, а анализируем структуру сессии. В Claude Code взаимодействие — это обмен сообщениями: пользователь даёт подсказки, Claude выполняет действия; затем пользователь снова даёт подсказки, и так далее. В типичной сессии таких раундов около четырёх. За период с октября по апрель в среднем за каждую подсказку Claude выполняет около 10 действий, иногда — более 100. В каждом раунде Claude читает файлы, редактирует код, запускает команды и в среднем пишет около 2400 слов.

Объем работы, выполненной Claude между двумя проверками пользователя, во многом зависит от того, кто принимает решения. Когда пользователь сохраняет контроль над выполнением, то есть принимает более 80% исполнительных решений, действия Claude за раунд — около 8. Когда же контроль за планированием — более 80% решений принимает Claude, — количество действий достигает примерно 16.

> Рис. 2: Доля планировочных и исполнительных решений, принадлежащих Claude и пользователю. В типичной сессии пользователь принимает около 70% планировочных решений, а Claude — около 80% исполнительных.

Профессиональный уровень

На основе каждой сессии Claude оценивает уровень профессионализма пользователя по пятибалльной шкале — от новичка до эксперта. Классификатор уровня учитывает три сигнала: точность команд пользователя, что он требует от Claude проверить, и кто чаще исправляет другого — пользователь или агент. Важно отметить, что этот уровень не совпадает с должностью или общими навыками, а является конкретной оценкой по задаче. Например, опытный инженер, впервые задающий вопрос по Rust, может быть новичком в этой области; бухгалтер, никогда не использовавший Python, если сможет точно указать, какие правила сверки должны выполняться в скрипте, и заметит ошибки при закрытии месяца — он будет экспертом по этой задаче.

В таблице показано, как мы определяем уровни профессионализма в классификаторе, и приведены примеры запросов из открытого датасета SWE-chat. Диалог, отнесённый к «новичку», содержит общие инструкции без специальных знаний; диалог эксперта — демонстрирует глубокое понимание кода и технической среды.

> Таблица 1: Классификация профессионального уровня. Примеры из реальных сессий, аннотированные нашим классификатором после переработки, анонимизации и сжатия. Многие примеры взяты из открытого датасета SWE-chat.

Мы измерили связь между уровнем профессионализма и количеством действий и текста, которые генерирует Claude на каждую подсказку. В типичной сессии новичка одна подсказка вызывает около 5 действий и около 600 слов вывода; у эксперта — более чем вдвое больше: около 12 действий и около 3200 слов, что в пять раз больше (см. рис. 3). Разрыв между новичком и экспертом наблюдается во всех типах задач и при разной ценности работы.

Эти показатели дополняют наши предыдущие исследования автономности Claude Code. Тогда мы отслеживали продолжительность работы агента и частоту автоматического одобрения его действий. В отличие от этого, наши метрики определения ответственности фиксируют, кто принимает существенные решения в сессии, а количество действий и слов — насколько автономно действует Claude при каждой подсказке.

> Рис. 3: Чем более профессиональный пользователь, тем больше работы выполняет Claude на каждую подсказку. Чем выше уровень профессионализма, тем больше действий (левая диаграмма) и текста (правая диаграмма), вызываемых одной подсказкой. Коробки — квартиль, медиана — внутри, усики — 5-й и 95-й перцентили, белая точка — геометрическое среднее. Оба тренда статистически значимы (p < 0.001). После учёта режима работы, ценности задачи, месяца, профессии и серии модели, а также кластеризации по пользователям, тренд сохраняется: повышение уровня профессионализма на один уровень — увеличение числа действий на 9%, текста — на 13%.

Кто использует Claude Code и зачем

Пользователи

Чтобы понять, кто именно использует эти инструменты, мы по записям сессий определяем профессию каждого пользователя и сопоставляем её с классификацией по стандартной системе SOC (Статистическая классификация профессий США), включающей 23 основные категории. Классификатор ориентируется только на следующие признаки: контекст, загруженный в начале сессии, названия и структура файлов, цитируемые материалы (юридические документы, клинические данные, финансовые отчёты, учебные материалы и т. п.), а также используемую лексику. Важно: наличие кода или данных само по себе не считается признаком программной профессии. Только если есть явные признаки работы с программным обеспечением или данными, сессия попадает в категорию «информатика и математика». Например, если юрист пишет скрипт для автоматической проверки договоров на наличие условий, то даже если основная деятельность — написание программ, сессия классифицируется как юридическая. Если признаков профессии нет — сессию не классифицируем.

В примерно 70% случаев нам удаётся определить профессию. Среди классифицированных — крупнейшая группа — «информатика и математика», что неудивительно, так как она включает большинство задач, связанных с программированием. Далее идут бизнес и финансы, искусство и медиа, управление, а также науки о жизни, физика и социальные науки. Самые быстро растущие среди некодирующих профессий — управление, продажи и право.

Работа

С октября 2025 по апрель 2026 года структура задач, выполняемых с помощью Claude Code, заметно изменилась. Самое заметное — доля сессий, связанных с исправлением ошибок в коде, снизилась с 33% до 19% (см. рис. 4). Вместо этого выросла доля задач, связанных с управлением программным обеспечением — с 14% до 21%. В два раза увеличилась доля задач по написанию и анализу данных — с 10% до 20%.

Ценность задач также выросла. Мы оценили её, сравнивая с рыночными ценами на подобные работы на фриланс-площадках, и получили рост примерно на 27%. Этот рост наблюдается во многих категориях задач: создание, управление и исправление — примерно на 43%, 34% и 32% соответственно. Эти оценки — очень приблизительные, и мы используем их скорее для сравнения трендов, чем для точных долларовых эквивалентов. Подробнее о методике оценки — в приложении.

> Рис. 4: Изменения структуры и ценности задач Claude Code с октября 2025 по апрель 2026. За семь месяцев доля задач по исправлению ошибок снизилась с 33% до 19%, а доля задач по управлению, анализу и подготовке документов выросла.

Успех зависит от того, что привносит пользователь

Оценка ценности задач — один из способов понять, как Claude Code помогает людям работать. Другой — анализировать, сколько сессий завершилось успешно и какие признаки связаны с успехом. В каждом случае мы видим явную закономерность: чем выше профессиональный уровень пользователя, тем выше вероятность успеха. Большая часть прироста — за счёт повышения уровня с новичка до среднего; разница между средним и экспертом — меньшая.

Перед анализом признаков успеха важно точно определить, что считать успехом. Мы не можем наблюдать реальные результаты в мире, не можем напрямую спрашивать, завершил ли пользователь задачу, которую хотел. Поэтому используем два взаимодополняющих метода оценки на основе записей сессий. Первый — «определение успеха» — после анализа всей сессии классификатор решает, достиг ли пользователь своей цели: успех, частичный успех, неудача или без ясной цели. Затем два вспомогательных классификатора оценивают степень уверенности в этом решении, ищут подтверждающие признаки успеха, такие как коммиты, пулл-запросы, прохождение тестов, явное подтверждение пользователя. Они выставляют баллы от 1 (нет признаков) до 5 (много сильных признаков). Аналогично — для ошибок, неудач, повторных попыток и недовольства. Успех считается подтверждённым, если и решение о достижении цели — «успех», и есть хотя бы один сильный признак успеха. В анализе мы исключаем около 7,7% сессий, где признаки успеха отсутствуют.

Вознаграждение за профессионализм

Какие сессии наиболее вероятно завершатся успехом? Результаты показывают, что уровень профессионализма — важнейший фактор.

Некоторые могут усомниться: может, дело не в профессионализме, а в другом? В этом разделе мы сравниваем сессии одного типа работы, с одинаковой ценностью, в один месяц, по одной теме, внутри одной профессиональной группы. Это помогает понять, насколько уровень профессионализма влияет на результат.

> Таблица 2: Определение успеха и неудачи по классификатору. Примеры из открытого датасета SWE-chat, переработанные и аннотированные нашим классификатором.

В каждом показателе, чем выше профессиональный уровень, тем выше шансы на успех. Например, у новичков по строгому определению «подтверждённый успех» — 15%, частичный успех — 77%. У пользователей среднего и высокого уровня — 28–33% подтверждённого успеха и 91–92% частичного (см. рис. 5).

Большая часть прироста — за счёт повышения с новичка до среднего; дальше прирост замедляется. Подробнее о статистике — в приложении.

> Рис. 5: Связь профессионального уровня и исхода сессии. График показывает, как меняется вероятность успеха в зависимости от уровня профессионализма по пятибалльной шкале. Левая — все сессии, правая — только проблемные (с высоким уровнем «неудач»). Каждая точка — скорректированное отношение, доверительный интервал — тонкая линия. Анализ основан на сравнении сессий с одинаковым режимом работы, ценностью задачи, месяцем, темой и профессиональной группой. В большинстве случаев — эти различия статистически значимы.

Даже в сложных случаях, когда есть признаки проблем, уровень профессионализма всё равно влияет. Когда есть подтверждённые признаки ошибок или неудач, вероятность успеха у экспертов — около 15%, у новичков — около 4% (см. рис. 5). При более мягких критериях — хотя бы частичный успех — у новичков 60%, у экспертов — 80–81%.

Также мы отслеживаем обратную зависимость: чем выше профессиональный уровень, тем ниже доля неудач. В частности, среди сессий без признаков успеха — «отказов» — у новичков эта доля достигает 19%, у более опытных — 5–7%. Это говорит о том, что менее опытные пользователи чаще сдаются, когда сталкиваются с трудностями. Навыки профессионала помогают лучше направлять агента.

Профессия важнее, чем уровень профессионализма

Пользователи из программных профессий достигают успеха примерно в 30% случаев, остальные — около 26%. В сессиях с генерацией кода (минимум одна строка добавлена или изменена) — 34% и 29% соответственно (см. рис. 6). При более мягких критериях разница сокращается: успех у программных специалистов — 89%, у остальных — 88%. В течение семи месяцев разница не меняется, оба показателя растут. В десяти крупнейших группах профессий разница в успехе с инженерами — менее 7 процентных пунктов. Управленцы показывают чуть лучший результат, что, возможно, связано с переносимостью управленческих навыков на управление агентами. Но это может быть и особенностью измерения: подтверждение успеха во многом зависит от явного подтверждения пользователя, а менеджеры — привычнее выражать свои ожидания.

> Рис. 6: Уровень профессионализма и успех по классификации по профессиям. В сессиях, где добавлена или изменена хотя бы одна строка кода, по строгой метрике успеха — успех и подтверждённый успех — показаны доли по крупнейшим группам. Каждая группа — не более 7% от разницы с группой «информатика и математика» (SOC). Ошибки и неудачи — тоже анализируются, и доверительные интервалы — тонкие линии. В большинстве случаев — разница менее 7%.

Перспективы

Результаты этого исследования рисуют картину, которая продолжает формироваться: агенты усиливают некоторые знания и навыки, а в других заменяют. В задачах по созданию кода успехи всех профессиональных групп почти сравнимы с инженерами. Похоже, что автоматизация программирования снижает значение наличия программного опыта для успеха.

При этом успешные сессии всё чаще связаны с профессиональными знаниями. Эксперты в сессиях показывают более чем вдвое больший подтверждённый успех, чем новички. В случаях проблем новички с гораздо большей вероятностью сдаются. Такой режим взаимодействия — когда человек управляет, а агент реализует — делает картину ещё яснее: эксперты могут управлять агентом, давая каждую команду, и получать больше выполненной работы. Поэтому способность вести Claude к успеху больше зависит от владения предметной областью, чем от навыков программирования. Те, кто хорошо разбирается в своей сфере, могут выполнять задачи, ранее недоступные без глубоких знаний. Те, кто не обладает этим пониманием, — используют инструменты менее эффективно. Основной источник выгоды — это способность управлять, а не писать код. Обладание операционным пониманием области уже даёт большую часть преимуществ; глубокая специализация — лишь небольшое дополнение.

Эти выводы — лишь начальные. Как и большинство исследований, мы не можем оценить реальные результаты — например, использовался ли сгенерированный код в реальности или заброшен, или принес ли он экономическую выгоду. Также в отчёте исключены неинтерактивные сценарии, которые составляют значительную часть активности. Создание системы оценки таких случаев — одна из задач будущего. Все наши классификации основаны на чтении сессий моделью. В приложении показано, что классификатор и независимые телеметрические данные в основном совпадают, и в большинстве случаев — с экспертной оценкой. Но в масштабных сценариях автоматическая проверка остаётся сложной, а сессии Claude Code — ещё более: они могут быть длинными и сложными, что затрудняет ручную аннотацию.

По мере развития моделей, изменения в пользователях и разделении труда, описанная картина будет обновляться. Надеемся, что эти метрики помогут отслеживать важные перемены: например, если отдача от профессионального уровня начнёт снижаться, это может означать, что модели начинают принимать ключевые решения вместо человека, и выгода расширяется на более широкие слои. Если доля успешных сессий вне программных профессий продолжит расти, это может означать, что программирование становится частью обычной работы в разных сферах, а не только узкой профессией. Эти перемены повлияют на то, кто и насколько сможет выигрывать от использования агентов, и как изменится ценность ключевых навыков на рынке труда.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено