Quem é o melhor em usar o Claude Code? A resposta pode não ser um programador

> Título original: Agentic coding and persistent returns to expertise
> Autor original: Anthropoic
> Tradução: Peggy
>

Nota do editor: Este relatório é baseado em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação com IA estão mudando a relação entre humanos e código.

A descoberta central do artigo é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto o Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto o Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos, depurar, mas a definição de objetivos e a avaliação de resultados ainda dependem das pessoas.

Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, em tarefas de geração de código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa científica já apresentam taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que quer resolver.

Isso significa que a programação com IA reduz a barreira de entrada para implementação, mas não para julgamento. No futuro, pessoas que entendem de negócios, de cenários específicos, capazes de formular claramente suas necessidades e avaliar resultados, podem usar a IA de forma mais eficaz do que aquelas que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ela amplificará o valor desse conhecimento.

A seguir, o texto original:

Descobertas principais

Com base em estudos anteriores, propusemos uma estrutura para estudar a programação de agentes interativos. Essa estrutura é fundamentada na análise de privacidade de cerca de 400 mil sessões do Claude Code, realizadas entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.

Em uma sessão típica, o humano é responsável pela maior parte do planejamento — ou seja, decide "o que fazer"; o Claude fica responsável pela maior parte da execução — ou seja, decide "como fazer". Quanto maior a expertise do usuário na área, maior o volume de trabalho que o Claude realiza a partir de cada comando. Em tarefas de codificação, a taxa média de sucesso — ou seja, a proporção de tarefas que o usuário pretendia realizar, com evidências verificáveis como testes ou submissões de código — é praticamente igual à dos engenheiros de software.

Quanto maior a capacidade de domínio do usuário, mais provável é o sucesso na sessão. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Ao longo de sete meses de observação, a proporção de sessões de depuração caiu quase pela metade, enquanto o uso se voltou mais para abordagens ponta a ponta: implantação e execução de código, análise de dados, elaboração de documentos não relacionados a código.

Durante esses sete meses, o valor das tarefas realizadas aumentou em quase todas as categorias de trabalho. Estimamos esse valor comparando com os custos de tarefas similares no mercado de trabalho freelance, ajustando por dados de vagas reais. Segundo essa métrica, o valor médio de uma sessão aumentou cerca de 25% de outubro a abril.

Introdução

A programação com agentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo atividades de agentes de codificação dobrou, e os usuários do Claude Code usam a ferramenta em média 20 horas por semana. Mas será que pessoas sem experiência formal em programação conseguem comandar um agente para tarefas complexas? Como a rápida adoção dessas ferramentas e sua evolução de capacidades afetarão o trabalho do conhecimento mais amplo? Ainda não temos respostas definitivas, mas alguns sinais iniciais podem ser observados nos dados de uso do Claude Code.

Este relatório é baseado na análise de privacidade de cerca de 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornecendo evidências sobre o uso real do Claude Code. Ele continua nossa pesquisa anterior sobre indicadores de autonomia nas sessões do Claude Code e como essas interações mudam o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de IA interativos: o que as pessoas fazem, quem faz, e se o trabalho é bem-sucedido. Nosso foco é no uso do Claude Code via interface de linha de comando (CLI), Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso de programação com agentes evolui com o aumento das capacidades do modelo, podemos entender melhor o impacto dessas ferramentas para profissionais de programação e trabalhadores do conhecimento.

O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes se tornando parte de tarefas não relacionadas à codificação. Descobrimos que o Claude está lidando com tarefas mais complexas e valiosas. Ao mesmo tempo, a divisão de trabalho na programação com agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.

Também encontramos evidências de que o verdadeiro fator que amplifica o uso eficaz das ferramentas é o conhecimento de domínio, e não a habilidade de programar. Especialistas de domínio têm mais sucesso e se recuperam mais facilmente de erros ou mal-entendidos. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com domínio suficiente em uma área, quase qualquer pessoa pode usar essas ferramentas de forma eficaz, como um especialista.

Essas descobertas nos permitem vislumbrar possíveis mudanças no mercado de trabalho. Nossos dados indicam que o sucesso depende mais de entender o problema do que de formação em programação. Se esses padrões se confirmarem na economia, isso significa que, embora as ferramentas de IA possam absorver algumas tarefas de implementação, elas também recompensam quem realmente compreende os problemas que tenta resolver. Programar com agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende do seu campo, mais trabalho de alta qualidade o agente pode realizar. Quanto menos domínio a pessoa tiver, menor será o benefício obtido com a ferramenta.

Divisão de trabalho

O que as pessoas fazem com Claude Code

Para entender como as pessoas usam o Claude Code, classificamos cada sessão em uma de nove categorias de trabalho, que melhor descrevem o objetivo principal da sessão. Quatro dessas categorias envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, ou coordenar outros agentes ou pipelines automáticos. Outras envolvem operação de software, incluindo implantação, configuração, execução de pipelines e monitoramento. Duas categorias focam em entender "o que fazer": compreender como um sistema existente funciona, ou planejar mudanças antes de agir. As duas últimas categorias não envolvem código diretamente, ou usam código apenas como suporte: análise de dados, e comunicação por apresentações ou documentos baseados em texto.

Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, planejamento ou exploração 14%, análise de dados e elaboração de textos 13% (ver figura 1).

> Figura 1: Nove categorias de trabalho. Cada sessão interativa é classificada na categoria que melhor descreve seu objetivo.

Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar os resultados com os dados de telemetria automática, incluindo se houve adição ou remoção de linhas de código. Essas duas fontes mostram alta concordância. Por exemplo, em sessões marcadas pelo classificador como criação ou modificação de código, mais de 90% também mostram mudanças de código na telemetria. Detalhes no apêndice.

Quem toma as decisões

Qual é o grau de autonomia do Claude Code? Avaliações de capacidade mostram que seu limite superior já é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, modelos avançados já conseguem realizar tarefas de software que antes levavam horas, de forma autônoma, superando obstáculos por conta própria. Mas na prática, como isso se manifesta? Aqui, focamos em quanto as sessões reais mostram que humanos e Claude assumem a direção do trabalho.

Analisamos essa questão de duas formas. Primeiro, quanto os humanos delegam decisões ao Claude; segundo, quanto eles atribuem ações ao Claude. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que identifica todas as decisões relevantes na sessão, e as classifica em decisões de planejamento (o que fazer, como fazer, o que significa concluir) ou de execução (quais arquivos modificar, que código escrever, em que linguagem, quais comandos rodar). Depois, o classificador atribui cada decisão ao Claude ou ao usuário, gerando duas métricas: a proporção de decisões de planejamento atribuídas ao usuário, e a de decisões de execução atribuídas ao usuário.

Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das decisões de execução (ver figura 2). Na prática, a programação com agentes revela uma divisão clara de tarefas: humanos decidem o que construir, agentes decidem como construir.

Para entender o grau de delegação de ações, não olhamos o conteúdo, mas a estrutura da sessão. Uma sessão do Claude Code consiste na troca de comandos entre usuário e Claude: o usuário envia um prompt, o Claude executa uma ação; depois, o usuário envia outro prompt, e assim por diante. Em sessões típicas, há cerca de quatro rodadas. Nos dados de outubro a abril, cada prompt do usuário costuma disparar cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, e produz em média 2.400 palavras.

A quantidade de trabalho que o Claude realiza entre duas verificações do usuário depende bastante de quem toma as decisões. Quando o usuário mantém o controle da execução — ou seja, toma mais de 80% das decisões de execução —, o Claude realiza cerca de 8 ações por rodada. Quando o Claude assume o controle do planejamento — ou seja, toma mais de 80% das decisões de planejamento —, o número de ações por rodada chega a cerca de 16.

> Figura 2: Proporção de decisões de planejamento e execução atribuídas ao Claude. A figura mostra a distribuição da proporção de decisões de planejamento (o que fazer) e de execução (como fazer) atribuídas ao Claude, em sessões típicas. Em média, o usuário toma cerca de 70% das decisões de planejamento, enquanto o Claude realiza cerca de 80% das decisões de execução.

Nível de especialização

Com base em cada sessão, o Claude avalia o nível de especialização aparente do usuário na tarefa, numa escala de cinco níveis, de iniciante a especialista. O classificador de nível de especialização observa três sinais: a precisão das instruções do usuário, o que o usuário pede para o Claude verificar, e quem costuma corrigir quem — o usuário ou o Claude. É importante notar que esse nível de especialização é diferente de cargo ou habilidade geral, sendo específico para cada tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust pela primeira vez ainda pode ser iniciante na tarefa de Rust; um contador que nunca usou Python, mas consegue explicar regras de reconciliação financeira e detectar erros na finalização mensal, é um especialista na tarefa de Python.

A tabela a seguir mostra como definimos os níveis de especialização no classificador, com exemplos de solicitações do conjunto de dados público SWE-chat. Sessões classificadas como "iniciante" envolvem comandos genéricos, sem conhecimento de domínio; sessões de "especialista" demonstram compreensão profunda do código e do ambiente técnico.

> Tabela 1: Classificador de nível de especialização. Exemplos de sessões reais, reescritos, anonimizados e resumidos, com marcações do nosso classificador. Muitos exemplos vêm do conjunto de dados público SWE-chat.

Quantificamos a relação entre nível de especialização, quantidade de ações do Claude por prompt, e volume de texto gerado. Em sessões típicas de iniciante, cada prompt dispara cerca de 5 ações do Claude e gera aproximadamente 600 palavras; em sessões de especialista, esse número de ações é mais que o dobro, cerca de 12, e o volume de texto chega a aproximadamente 3.200 palavras, cinco vezes mais (ver figura 3). Essa diferença entre iniciante e especialista aparece em todos os tipos de trabalho e faixas de valor de tarefa.

Esses indicadores complementam nossa pesquisa anterior sobre autonomia do Claude Code. Antes, acompanhávamos o tempo de execução do agente e a frequência com que os usuários aprovavam suas ações automaticamente. Agora, nossos indicadores de atribuição de decisão capturam quem toma as decisões substantivas na sessão, enquanto o volume de ações e texto disparado por cada prompt mede o quanto o comando humano consegue estimular a autonomia do Claude.

> Figura 3: Quanto mais profissional for o usuário, mais trabalho o Claude realiza por prompt. Quanto maior o nível de especialização, maior o número de ações (barra esquerda) e o volume de texto (barra direita) gerados por cada comando do usuário. As caixas representam o intervalo interquartil, com a mediana ao centro. As linhas de bigodes indicam o 5º ao 95º percentil. Os pontos brancos representam a média geométrica. Ambas as tendências são estatisticamente significativas (p < 0,001), e as diferenças entre níveis profissionais adjacentes também o são. Após controlar por padrão de trabalho, valor da tarefa, mês, profissão e série do modelo, e ajustar por cluster de usuário, a tendência permanece: a cada nível de especialização, o número de ações aumenta 9%, e o volume de texto, 13%.

Quem usa o Claude Code e para quê

Usuários

Para entender quem está realizando essas tarefas, inferimos a profissão de cada usuário a partir do registro da sessão, mapeando para uma das 23 categorias principais do Sistema de Classificação Ocupacional (SOC) dos EUA. O classificador avalia apenas sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a materiais ou produtos (como documentos legais, dados clínicos, relatórios financeiros, materiais de cursos), e o vocabulário utilizado. É explicitamente proibido considerar "está escrevendo código" como evidência de profissão de programador. Só se houver sinais claros de que o trabalho envolve software ou dados, a sessão será classificada como relacionada à área de computação e matemática. Por exemplo, se um advogado constrói um script para verificar automaticamente cláusulas contratuais, mesmo que a maior parte da sessão seja sobre programação, ela será classificada como jurídica. Se não houver sinais de profissão, a sessão não será classificada.

Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte pertence à categoria de "computação e matemática", o que é esperado, pois abrange a maior parte do trabalho de software. Depois vêm negócios e finanças, arte e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as categorias que mais crescem estão gestão, vendas e direito.

Trabalho

De outubro de 2025 a abril de 2026, a composição do trabalho realizado com Claude Code mudou significativamente. A maior mudança foi na redução de sessões de reparo de código danificado, que caiu de 33% para 19% (ver figura 4). Em seu lugar, aumentaram tarefas relacionadas à operação de código. A participação de operações de software subiu de 14% para 21%. Escrita e análise de dados quase dobraram, passando de cerca de 10% para 20%.

O valor econômico das tarefas também aumentou. Estimamos esse valor comparando com custos de tarefas similares no mercado freelance, ajustando por dados de vagas reais. Segundo essa métrica, o valor médio por sessão cresceu 27% de outubro a abril. Essa alta ocorreu em várias categorias de trabalho: construção, operação e reparo aumentaram aproximadamente 43%, 34% e 32%, respectivamente. Essas estimativas de preço são aproximadas, usadas principalmente para comparar tendências ao longo do tempo, não como valores monetários exatos. Detalhes na seção de apêndice.

> Figura 4: Mudanças na composição e valor do trabalho com Claude Code de outubro de 2025 a abril de 2026. A figura mostra a proporção de diferentes categorias de trabalho ao longo de sete meses. Reparo de código danificado caiu de 33% para 19%, enquanto operação de software, análise de dados e elaboração de documentos aumentaram.

O que importa é o que o usuário traz para a mesa

Estimando o valor das tarefas, podemos entender melhor como o Claude Code ajuda as pessoas a realizar seu trabalho. Outro aspecto importante é observar quantas sessões são bem-sucedidas e quais características estão associadas ao sucesso. Em todos os indicadores de sucesso, há um padrão claro: quanto maior o nível de especialização do usuário, maior a chance de sucesso na sessão. A maior parte dessa diferença ocorre entre iniciantes e intermediários, sendo menor a diferença entre intermediários e especialistas.

Antes de analisar as características das sessões bem-sucedidas, precisamos definir com precisão o que é sucesso. Como não podemos observar os resultados no mundo real nem perguntar diretamente aos usuários se conseguiram realizar o que pretendiam, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "sucesso verificado", que avalia se o usuário atingiu seu objetivo original após leitura completa da sessão, classificando como sucesso, parcialmente bem-sucedido, fracasso ou sem objetivo claro. Dois classificadores associados avaliam a força dessa evidência, atribuindo uma pontuação de 1 a 5, de "sem sinal" a "múltiplos sinais fortes". Um classificador paralelo avalia sinais de erro ou insucesso, como falhas, tentativas repetidas ou insatisfação do usuário. Para considerar uma sessão como "verdadeiramente bem-sucedida", ela deve ser classificada como sucesso e ter pelo menos um sinal forte de sucesso verificável. Analisamos aqui o grau de sucesso ou fracasso, excluindo sessões sem objetivo claro, que representam cerca de 7,7% do total.

Retorno do nível de especialização

Então, quais sessões têm maior probabilidade de sucesso? Os resultados mostram que a pontuação de nível de especialização tem forte impacto na probabilidade de sucesso.

Alguns podem argumentar que o nível de especialização não é a causa real, pois talvez especialistas escolham tarefas diferentes ou tenham outras diferenças. Para responder a isso, comparamos sessões de mesmo tipo de trabalho, mesmo valor estimado, mesmo mês, mesma temática, de usuários de mesma categoria profissional, controlando variáveis. Os resultados confirmam que, mesmo assim, usuários mais especializados têm maior sucesso.

> Tabela 2: Definições de sucesso e fracasso derivadas do classificador. Exemplos de sessões reais do conjunto público SWE-chat, reescritos, anonimizados e resumidos, com marcações do nosso classificador.

Em todos os indicadores, quanto maior o nível de especialização do usuário, maior a chance de sucesso. Sessões classificadas como "iniciante" têm uma taxa de sucesso verificado de 15%, e de pelo menos parcial de 77%. Já sessões de nível intermediário ou superior apresentam taxas de sucesso verificado entre 28% e 33%, e de parcial entre 91% e 92% (ver figura 5).

Na maioria dos indicadores, a maior parte da melhora ocorre entre iniciantes e intermediários; a partir daí, a curva de progresso se acalma. Detalhes da análise de regressão por trás da figura estão no apêndice.

> Figura 5: Relação entre nível de especialização e resultados da sessão. A figura mostra, de acordo com a classificação de nível de especialização do usuário, a proporção de sessões bem-sucedidas, parcialmente bem-sucedidas, ou com problemas, em diferentes categorias. Cada ponto é uma proporção ajustada. As sessões foram agrupadas por padrão de trabalho, valor da tarefa, mês, tema, e tipo de usuário (profissional de software ou não). As linhas de bigode representam intervalos de confiança de 95%. Os resultados excluem sessões sem objetivo claro, conforme classificação de sucesso.

Também é possível observar uma relação semelhante em sessões problemáticas: quando há sinais fortes de erro ou insucesso, a taxa de sucesso verificado cai de 15% em iniciantes para 4% em especialistas. Quando usamos critérios mais flexíveis, a taxa de pelo menos parcial sucesso sobe para 60% em iniciantes e mais de 80% em intermediários e especialistas.

Além disso, monitoramos uma relação inversa: maior nível de especialização tende a reduzir as falhas. Sessões que não geraram código ou tiveram erros graves, e que foram abandonadas, representam 19% em iniciantes, contra 5-7% em outros grupos. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades, o que mostra que o domínio ajuda a direcionar o agente na direção certa.

Profissão pode ser menos importante que o nível de especialização

Usuários de profissões relacionadas a software têm uma taxa de sucesso verificado de cerca de 30%, enquanto outros profissionais atingem 26%. Em sessões que geraram código, esses números sobem para 34% e 29%, respectivamente (ver figura 6). Com critérios mais flexíveis, a diferença entre profissões diminui ainda mais, chegando a 89% e 88% de sucesso parcial. Esses números não mudaram muito ao longo de sete meses, mesmo com melhorias gerais na taxa de sucesso. Entre as dez maiores categorias profissionais do nosso conjunto de dados, a diferença em sucesso entre elas e os engenheiros de software é sempre menor que sete pontos percentuais. Profissionais de gestão apresentam a maior taxa de sucesso verificável, ligeiramente acima de software. Essa maior taxa pode refletir a transferência de habilidades gerenciais para o comando de agentes, ou pode ser uma consequência da nossa métrica, que depende de confirmação explícita do usuário, algo mais comum entre gestores.

> Figura 6: Taxa de sucesso verificado e parcial em sessões de codificação, por profissão inferida. A figura mostra, para as dez maiores categorias profissionais, a proporção de sessões com pelo menos uma linha de código modificada ou adicionada, e a taxa de sucesso verificado e parcial. Cada ponto representa uma estimativa ajustada, com intervalo de confiança de 95%. A diferença entre cada grupo e os profissionais de computação/matemática (SOC) é menor que sete pontos percentuais.

Perspectivas

Os resultados deste relatório delineiam um cenário em formação: a programação com agentes está ampliando certas habilidades e conhecimentos, ao mesmo tempo em que substitui outras. Em sessões de geração de código, as taxas de sucesso de diferentes profissões se aproximam das de profissionais de software. Parece que o uso de agentes está tornando menos relevante a experiência em programação para o sucesso na tarefa.

Por outro lado, sessões bem-sucedidas tendem a envolver maior conhecimento de domínio. Sessões de especialistas têm mais do dobro de sucesso verificado em relação a iniciantes. Quando há problemas, a taxa de desistência entre iniciantes é várias vezes maior. A colaboração em si reforça esse padrão: especialistas conseguem usar cada comando para guiar o Claude a realizar mais trabalho. Assim, a capacidade de levar o Claude ao sucesso depende mais do domínio do que da habilidade de programar. Quanto mais o usuário conhece seu campo, mais trabalho de alta qualidade o agente consegue fazer. Quem tem pouco domínio, mesmo usando a mesma ferramenta, obtém resultados menores. E o benefício maior vem do domínio, não da perfeição: entender bem uma área já garante grande parte do sucesso; aprofundar o conhecimento traz ganhos adicionais, mas menores.

Essas descobertas ainda são preliminares. Como na maior parte de nossas pesquisas, não podemos medir resultados no mundo real, como se o código gerado foi realmente utilizado ou gerou valor econômico. Além disso, este relatório exclui o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para mensurar esse uso será uma prioridade futura. Todas as nossas classificações dependem do modelo interpretar as sessões, e, embora a maioria das classificações seja consistente com avaliações independentes, validar esses métodos em larga escala é difícil. Sessões de programação com agentes podem ser longas e complexas demais para uma rotulagem manual confiável.

À medida que os modelos, os usuários e a divisão de trabalho evoluem, as imagens aqui apresentadas também se transformarão. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes: se o retorno do domínio diminuir, isso indicará que os modelos estão fornecendo julgamentos essenciais aos usuários, expandindo os benefícios do domínio técnico para um público mais amplo. Se a proporção de usuários de profissões não relacionadas à tecnologia que conseguem completar sessões de codificação aumentar, isso pode significar que a produção de software está se tornando parte do trabalho comum em várias áreas, e não mais uma atividade exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia da programação com agentes, e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.

[Link do original]

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:
https://t.me/theblockbeats

Grupo de discussão no Telegram:
https://t.me/BlockBeats_App

Conta oficial no Twitter:
https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado