Quem é que usa Claude Code melhor? A resposta pode não ser um programador

Question

Título original: Agentic coding and persistent returns to expertise
Autor original: Anthropoic
Tradutor: Peggy

Autor original do artigo:律动BlockBeats

Fonte original:

Reprodução: Mars Finance

Nota do editor: Este relatório baseia-se em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação com IA estão mudando a relação entre humanos e código.

A descoberta central do artigo é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto o Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto o Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos e depurar, mas a definição de objetivos e a avaliação de resultados ainda dependem do humano.

Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, na tarefa de gerar código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa científica têm taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que quer resolver.

Isso significa que a programação com IA reduz a barreira de implementação, não a de julgamento. No futuro, pessoas que entendem de negócios, de cenários específicos, capazes de formular claramente suas necessidades e avaliar resultados, podem usar a IA de forma mais eficaz do que aqueles que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ela amplificará o valor desse conhecimento.

A seguir, o texto original:

Descobertas principais

Com base em estudos anteriores, propusemos uma estrutura para estudar a programação de agentes inteligentes interativos. Essa estrutura é fundamentada na análise de privacidade de cerca de 400 mil sessões do Claude Code, realizadas entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.

Em uma sessão típica, o humano é responsável pela maior parte do planejamento — ou seja, decide "o que fazer"; o Claude, por sua vez, é responsável pela maior parte da execução — ou seja, decide "como fazer". Quanto maior a expertise do usuário na área, maior será a quantidade de trabalho que o Claude realiza a partir de cada comando. Na tarefa de codificação, a taxa média de sucesso — ou seja, a proporção de casos em que o usuário conseguiu realizar o que pretendia, com evidências verificáveis como testes ou submissões de código — é quase igual à de engenheiros de software, independentemente da profissão.

Quanto maior a competência do usuário na área, mais provável é que a sessão seja bem-sucedida. No entanto, a diferença entre usuários intermediários e especialistas não é grande. Ao longo de sete meses de observação, a proporção de sessões de depuração caiu quase pela metade, enquanto o uso do sistema evoluiu para abordagens mais end-to-end: implantação e execução de código, análise de dados e elaboração de documentos não relacionados a código.

Durante esse período, o valor médio das tarefas aumentou em quase todas as categorias de trabalho. Estimamos esse valor comparando com os custos de tarefas similares no mercado de trabalho freelance, ajustando com dados de vagas reais. Essa métrica indica um aumento médio de cerca de 25% no valor por sessão entre outubro de 2025 e abril de 2026.

Introdução

A programação com agentes inteligentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo atividades de agentes de codificação dobrou, e os usuários do Claude Code agora usam a ferramenta em média 20 horas por semana. Mas será que pessoas sem experiência formal em programação conseguem comandar um agente para realizar tarefas complexas? Como essa rápida adoção e aprimoramento das ferramentas afetará o trabalho do conhecimento em geral? Ainda não temos respostas definitivas, mas alguns sinais iniciais podem ser observados nos dados de uso do Claude Code.

Este relatório, baseado na análise de privacidade de aproximadamente 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornece evidências sobre o uso real do Claude Code. Ele continua nossas pesquisas anteriores sobre a autonomia do sistema durante as sessões e como o Claude Code está mudando o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de IA interativos: o que as pessoas fazem, quem faz, e se o trabalho é bem-sucedido. Nosso foco é no uso do Claude Code via interface de linha de comando (CLI), Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso da programação de agentes evolui com o aumento da capacidade do modelo, podemos entender melhor o impacto dessas ferramentas para profissionais de programação e trabalhadores do conhecimento.

O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes que se integram cada vez mais às tarefas não relacionadas à codificação. Observamos que o Claude está lidando com tarefas mais complexas e valiosas. Ainda assim, a divisão de trabalho na programação de agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.

Também encontramos evidências de que o verdadeiro fator de amplificação do uso de ferramentas é o conhecimento de domínio, e não a habilidade de programar. Especialistas de domínio têm maior facilidade de sucesso e maior capacidade de se recuperar de erros ou mal-entendidos. No entanto, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com conhecimento suficiente em uma área, qualquer pessoa pode usar essas ferramentas de forma eficaz, quase como um especialista.

Essas descobertas nos permitem vislumbrar possíveis mudanças no mercado de trabalho. Nosso dado mostra que o sucesso depende mais de entender o problema do que de treinamento em programação. Se esse padrão se confirmar na economia, significa que as ferramentas de programação com IA podem estar absorvendo tarefas mais de implementação, mas também recompensando quem realmente compreende o problema que está resolvendo. Programar agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende do seu campo, mais trabalho de alta qualidade o agente pode realizar.

Divisão de trabalho

O que as pessoas fazem com Claude Code

Para entender como as pessoas usam o Claude Code, categorizamos cada sessão em um de nove modos de trabalho, representando a atividade principal que melhor descreve o objetivo da sessão. Quatro dessas categorias envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, ou coordenar outros agentes ou pipelines automatizados. Outras categorias envolvem operar software: implantar, configurar, executar pipelines e monitorar sistemas. Duas categorias focam em entender o que fazer: compreender como um sistema existente funciona, ou planejar mudanças antes de agir. As duas últimas categorias não envolvem código diretamente ou usam código apenas como suporte: análise de dados e comunicação por apresentações ou documentos baseados em texto.

Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, planejar ou explorar 14%, e análise ou elaboração de textos 13% (ver Figura 1).

Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar os resultados com os dados de telemetria automática, incluindo se houve adição ou remoção de linhas de código. Essas duas fontes mostram alta concordância: por exemplo, em sessões marcadas como criação ou modificação de código, mais de 90% também exibem mudanças de código na telemetria. Detalhes no apêndice.

Quem toma as decisões

Qual é o nível de autonomia do Claude Code? Avaliações de capacidade indicam que seu potencial máximo já é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, os modelos mais avançados já podem realizar tarefas de software que antes levavam horas, superando obstáculos por conta própria. Mas na prática, como isso se manifesta? Aqui, focamos na quantidade de orientação que o humano fornece ao Claude durante as sessões.

Analisamos essa questão de duas formas. Primeiro, quanto o usuário delega decisões ao Claude; segundo, quanto de ação o usuário atribui ao próprio Claude. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que identifica todas as decisões relevantes na sessão e as classifica como de planejamento ou execução. Planejamento inclui decidir o que fazer, qual método usar, o que constitui sucesso; execução inclui quais arquivos modificar, que código escrever, em que linguagem, e quais comandos executar. Depois, o classificador atribui cada decisão ao Claude ou ao usuário, gerando dois números: a proporção de decisões de planejamento e de execução atribuídas ao usuário.

Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das de execução (ver Figura 2). Na prática, a programação com agentes revela uma divisão clara: humanos decidem o que construir, agentes decidem como construir.

Para entender o grau de delegação de ações em uma sessão, não analisamos o conteúdo, mas a estrutura da conversa. Uma sessão típica envolve trocas entre usuário e Claude: o usuário envia um prompt, o Claude executa uma ação; então, o usuário envia outro prompt, e assim por diante. Em uma sessão típica, há cerca de quatro rodadas. Nos dados de outubro a abril, cada prompt do usuário geralmente aciona cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, e produz em média 2.400 palavras.

A quantidade de trabalho que o Claude realiza entre duas verificações do usuário depende bastante de quem toma as decisões. Quando o usuário mantém o controle das ações, ou seja, toma mais de 80% das decisões de execução, o Claude realiza cerca de 8 ações por rodada. Quando o Claude assume o controle do planejamento, ou seja, toma mais de 80% das decisões de planejamento, o número de ações por rodada chega a aproximadamente 16.

Nível de especialização

Com base em cada sessão, o Claude avalia o nível de especialização aparente do usuário na tarefa, numa escala de cinco níveis, de iniciante a especialista. O classificador de especialização foca em três sinais: quão precisas são as instruções do usuário, se o usuário pede ao Claude para verificar algo, e se o usuário corrige o Claude mais frequentemente do que o contrário. É importante notar que esse nível de especialização é diferente de cargo ou habilidade geral, sendo específico para cada tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust pela primeira vez ainda pode ser iniciante na tarefa de Rust. Por outro lado, um contador que nunca usou Python, mas consegue explicar ao Claude as regras de reconciliação de um script Python, e identificar erros na contabilidade de fim de mês, é um especialista na tarefa.

A tabela abaixo mostra como definimos os níveis de especialização no classificador, com exemplos de solicitações do conjunto de dados público SWE-chat. Sessões classificadas como "iniciante" apresentam instruções genéricas, sem conhecimento de domínio; sessões de "especialista" demonstram compreensão profunda do código e do ambiente técnico.

Quantificamos a relação entre nível de especialização e a quantidade de ações e saída gerada por cada prompt do Claude. Em sessões típicas de iniciante, cada prompt aciona cerca de 5 ações e gera aproximadamente 600 palavras; em sessões de especialista, o número de ações é mais que o dobro, cerca de 12, e a saída chega a aproximadamente 3.200 palavras, cinco vezes mais (ver Figura 3). Essa diferença entre iniciante e especialista aparece em todos os tipos de trabalho e faixas de valor de tarefa.

Esses indicadores complementam nossas pesquisas anteriores sobre a autonomia do Claude Code. Antes, acompanhávamos a duração das sessões e a frequência com que os usuários aprovavam automaticamente suas ações. Agora, nossas métricas de atribuição de decisão capturam quem toma as decisões substantivas ao longo de toda a sessão, enquanto a quantidade de ações e saída por prompt mede o quanto cada comando humano pode desencadear atividades autônomas do Claude.

Quem usa o Claude Code e para quê

Usuários

Para entender quem está realizando essas tarefas, inferimos a profissão de cada usuário a partir do registro da sessão, mapeando-a para uma das 23 categorias principais do Sistema de Classificação Ocupacional (SOC) do Bureau of Labor Statistics dos EUA. O classificador baseia-se apenas em sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a materiais ou produtos (como documentos legais, dados clínicos, relatórios financeiros, materiais de cursos), e o vocabulário utilizado. É explicitamente proibido usar "está escrevendo código" como evidência de que o usuário é programador. Só se houver sinais claros de que o trabalho envolve software ou dados, a sessão será classificada na categoria de "profissões de computação e matemática". Por exemplo, se um advogado constrói um script para verificar automaticamente a ausência de cláusulas específicas em contratos, a sessão será classificada como relacionada ao direito, mesmo que o foco principal seja escrever software. Se não houver sinais claros, a sessão não será classificada.

Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte pertence à categoria "profissões de computação e matemática", o que é esperado, pois essa categoria cobre a maior parte do trabalho relacionado a software. Seguem-se as áreas de negócios e finanças, artes, design e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as profissões não relacionadas a software que mais crescem estão gestão, vendas e direito.

Trabalho

De outubro de 2025 a abril de 2026, a composição do trabalho realizado com Claude Code mudou significativamente. A maior mudança foi a queda na proporção de sessões de reparo de código danificado, de 33% para 19% (ver Figura 4). Em seu lugar, aumentou o trabalho relacionado à manipulação de código. A operação de software passou de 14% para 21%. Escrita e análise de dados quase dobraram, de cerca de 10% para 20%.

O valor das tarefas também aumentou. Estimamos esse valor comparando com os custos de tarefas similares no mercado freelance, ajustando com dados de vagas reais. Segundo essa métrica, o valor médio por sessão aumentou cerca de 27% entre outubro de 2025 e abril de 2026. Essa alta ocorreu em várias categorias de trabalho: construção, operação e reparo de código cresceram aproximadamente 43%, 34% e 32%, respectivamente. Essas estimativas de preço são aproximadas e servem principalmente para comparar tendências ao longo do tempo, não como valores monetários exatos. Detalhes do método de cálculo estão no apêndice.

O que traz sucesso é o que o usuário traz

Estimando o valor das tarefas, podemos entender como o Claude Code ajuda as pessoas a fazerem seu trabalho. Outro aspecto importante é observar quantas sessões são bem-sucedidas e quais características estão associadas ao sucesso. Em todos os indicadores de sucesso, há um padrão claro: quanto maior a expertise do usuário na sessão, maior a chance de sucesso. A maior parte do ganho ocorre na transição de iniciante para intermediário, enquanto a diferença de intermediário para especialista é menor.

Antes de analisar as características das sessões bem-sucedidas, precisamos definir com precisão o que é sucesso. Como não podemos observar os resultados no mundo real nem perguntar diretamente aos usuários se conseguiram fazer o que queriam, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "sucesso verificado", que avalia se o usuário atingiu seu objetivo original após análise do classificador, com categorias como sucesso, parcialmente bem-sucedido, fracasso ou sem objetivo claro. Dois classificadores associados avaliam a força dessa evidência, atribuindo uma pontuação de 1 a 5. O sucesso verificado exige que ambos os classificadores encontrem evidências de sucesso, incluindo atividades de controle de versão (commits, pull requests), testes passando, ou confirmação explícita do usuário. Para isso, eles avaliam a presença de sinais verificáveis de sucesso ou fracasso, atribuindo pontuações de acordo. Sessões sem sinais claros de sucesso ou fracasso são excluídas da análise.

O retorno do nível de especialização

Então, quais sessões têm maior probabilidade de sucesso? Os resultados mostram que a pontuação de especialização tem forte impacto na probabilidade de sucesso.

Alguns podem argumentar que o nível de especialização não é a causa real do sucesso, pois talvez especialistas escolham tarefas diferentes ou tenham outras vantagens. Para responder a isso, comparamos sessões de mesmo tipo de trabalho, com valor estimado semelhante, no mesmo mês, com temas similares, e de usuários de mesma categoria profissional. Assim, controlamos variáveis que poderiam influenciar os resultados.

Em todas as métricas, quanto maior o nível de especialização aparente do usuário, maior a chance de sucesso. Sessões classificadas como "iniciante" têm uma taxa de sucesso verificado de 15%, e 77% de pelo menos sucesso parcial. Já sessões de intermediários ou superiores apresentam taxas de sucesso verificado entre 28% e 33%, e de sucesso parcial entre 91% e 92% (ver Figura 5).

Na maioria das métricas, a maior parte do ganho ocorre na transição de iniciante para intermediário; a melhora de intermediário para especialista é mais gradual. Detalhes da análise de regressão estão no apêndice.

Também observamos uma tendência semelhante em sessões problemáticas: quando há sinais verificáveis de erro, a taxa de sucesso verificado cai para 4% em iniciantes, e sobe para 15% em especialistas, mesmo controlando variáveis (ver Figura 5). Com critérios mais relaxados, a taxa de sucesso parcial chega a 60% para iniciantes e a 80-81% para intermediários e especialistas.

Por outro lado, há uma relação inversa entre nível de especialização e indicadores de falha. Sessões consideradas fracassadas — ou seja, sem sucesso parcial —, especialmente aquelas abandonadas por não avançar, representam 19% em iniciantes, contra 5-7% em outros grupos. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades. Parte do valor do profissional está na capacidade de orientar o agente de volta ao caminho certo.

A profissão pode ser menos importante do que o nível de especialização

Usuários de profissões relacionadas a software têm uma taxa de sucesso verificado de cerca de 30%, enquanto outros profissionais têm cerca de 26%. Em sessões que geram código, ou seja, que envolvem adição ou modificação de pelo menos uma linha, esses números sobem para 34% e 29%, respectivamente (ver Figura 6). Com uma definição mais ampla de sucesso, a diferença entre profissões diminui ainda mais. Em sessões de geração de código, a proporção de pelo menos sucesso parcial é de 89% para profissionais de software e 88% para outros. A diferença de cinco pontos percentuais é pequena, e não aumentou nem diminuiu ao longo de sete meses, mesmo com melhorias gerais nas taxas de sucesso. Nos dez maiores grupos profissionais do nosso conjunto de dados, essa diferença fica dentro de sete pontos percentuais em relação aos engenheiros de software. Profissões de gestão apresentam a maior taxa de sucesso verificado, ligeiramente acima de profissionais de software. Essa maior taxa pode refletir a transferência de habilidades gerenciais para a condução de agentes, ou pode estar relacionada à nossa forma de medição, que depende de confirmação explícita do usuário, mais comum entre gestores.

Perspectivas

Os resultados deste relatório delineiam um cenário em formação: a programação com agentes está ampliando certas habilidades e conhecimentos, ao mesmo tempo em que substitui outras. Em sessões de geração de código, as principais profissões têm taxas de sucesso próximas às de profissionais de software. Parece que a capacidade de programar agentes está tornando menos relevante a experiência formal em programação para o sucesso na tarefa.

Por outro lado, sessões bem-sucedidas tendem a envolver maior conhecimento de domínio. Sessões de especialistas têm mais que o dobro de sucesso verificado do que sessões de iniciantes. Quando há problemas, a taxa de desistência entre iniciantes é várias vezes maior. A forma de colaboração é clara: especialistas conseguem usar cada comando para orientar o Claude a fazer mais trabalho. Assim, a capacidade de levar o Claude ao sucesso depende mais do domínio do conhecimento do que de habilidades de codificação. Quem domina uma área consegue fazer tarefas que antes eram impossíveis. Quem não tem esse entendimento, mesmo usando a mesma ferramenta, obtém resultados muito menores. E o benefício vem mais do domínio do que da maestria na codificação. Entender operacionalmente uma área já garante grande parte do benefício; especializações profundas oferecem apenas vantagens adicionais limitadas.

Essas descobertas ainda são preliminares. Como na maioria de nossos estudos, não podemos medir resultados no mundo real, como se o código gerado foi realmente utilizado ou gerou valor econômico. Além disso, este relatório exclui o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para mensurar esse tipo de uso será uma prioridade futura. Todas as nossas classificações dependem da leitura do modelo sobre os registros de sessão. No apêndice, mostramos que o classificador mantém uma boa consistência com dados de telemetria independentes, na maioria das sessões, e concorda com avaliações de referência. Ainda assim, validar esses classificadores em larga escala é difícil, especialmente porque as sessões de Claude Code podem ser longas e complexas, dificultando a rotulagem manual como padrão de verdade.

À medida que os modelos, os usuários e a divisão de trabalho entre ambos evoluem, as imagens aqui apresentadas também se atualizarão. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes: se o retorno do nível de especialização começar a cair, será um sinal de que os modelos estão fornecendo julgamentos essenciais atualmente feitos pelos humanos, e que os benefícios dessas ferramentas se expandirão para além de especialistas. Se a proporção de usuários de profissões não relacionadas à software que conseguem completar sessões de codificação com sucesso continuar a subir, pode indicar que a produção de software está se tornando uma parte comum do trabalho em várias áreas, e não mais uma atividade exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia da programação com agentes e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.

Quem é que usa Claude Code melhor? A resposta pode não ser um programador

Tópicos em destaque

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Fixado