Quem é o melhor em usar o Claude Code? A resposta pode não ser um programador

Question

Título original: Agentic coding and persistent returns to expertise
Autor original: Anthropoic
Tradução: Peggy

Autor original do artigo:律动BlockBeats

Fonte original:

Reprodução: Mars Finance

Nota do editor: Este relatório é baseado em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação com IA estão mudando a relação entre humanos e código.

A descoberta central do artigo é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos e depurar, mas a definição de objetivos e avaliação de resultados ainda dependem das pessoas.

Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, na tarefa de gerar código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa científica já apresentam taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que deseja resolver.

Isso significa que a programação com IA reduz a barreira de implementação, mas não a de julgamento. No futuro, pessoas que entendem de negócios, de cenários específicos, capazes de formular claramente suas necessidades e avaliar resultados, podem usar a IA de forma mais eficaz do que aquelas que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ela amplificará o valor desse conhecimento.

A seguir, o texto original:

Descobertas principais

Com base em estudos anteriores, propusemos uma estrutura para estudar a programação de agentes inteligentes interativos. Essa estrutura é fundamentada na análise de privacidade de cerca de 400 mil sessões do Claude Code, realizadas entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.

Em uma sessão típica, o humano é responsável pela maior parte do planejamento, ou seja, decide "o que fazer"; Claude é responsável pela maior parte da execução, ou seja, decide "como fazer". Quanto maior a expertise do usuário na área, maior o volume de trabalho que Claude realiza por comando. Na tarefa de codificação, a taxa média de sucesso — ou seja, a proporção de casos em que o usuário consegue realizar o que pretendia, com evidências verificáveis como testes ou submissões de código — é quase igual à de engenheiros de software.

Quanto maior a competência do usuário na área, maior a chance de sucesso na sessão. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Durante sete meses de observação, a proporção de sessões de depuração caiu quase pela metade, enquanto o uso se voltou mais para abordagens de ponta a ponta: implantação e execução de código, análise de dados e elaboração de documentos não relacionados a código.

Nesses sete meses, o valor das tarefas realizadas aumentou em quase todas as categorias profissionais. Estimamos esse valor comparando com os custos de trabalhos similares no mercado de freelancers, usando dados de vagas reais. Segundo essa métrica, o valor médio de uma sessão aumentou cerca de 25% de outubro a abril.

Introdução

A programação com agentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo atividades de agentes de codificação dobrou, e os usuários do Claude Code usam a ferramenta em média 20 horas por semana. Pessoas sem experiência formal em programação conseguem comandar um agente para tarefas complexas? Como a rápida adoção dessas ferramentas e sua evolução de capacidades afetarão o trabalho do conhecimento mais amplo? Ainda não temos respostas definitivas, mas alguns sinais iniciais podem ser observados nos dados de uso do Claude Code.

Este relatório, baseado na análise de privacidade de cerca de 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornece evidências sobre o uso real do Claude Code. Ele continua nossa pesquisa anterior sobre os indicadores de autonomia nas sessões do Claude Code e como essas ferramentas mudam o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de IA interativos: o que as pessoas estão fazendo, quem está fazendo, e se o trabalho foi bem-sucedido. Nosso foco é no uso do Claude Code via interface de linha de comando (CLI), Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso de programação de agentes evolui com o aumento das capacidades do modelo, podemos entender melhor o impacto dessas ferramentas para profissionais de programação e trabalhadores do conhecimento.

O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes que se integram cada vez mais às tarefas não relacionadas à codificação. Observamos que Claude está lidando com tarefas mais complexas e valiosas. Ao mesmo tempo, a divisão de trabalho na programação de agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.

Também encontramos evidências de que o verdadeiro fator de amplificação do uso dessas ferramentas é o conhecimento de domínio, e não a habilidade de programar. Especialistas de domínio têm maior facilidade de sucesso e de se recuperar de erros ou mal-entendidos. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com conhecimento suficiente em uma área, qualquer pessoa pode usar essas ferramentas de forma eficaz, quase como um especialista.

Essas descobertas nos permitem observar possíveis mudanças no mercado de trabalho. Nosso dado mostra que o sucesso depende de entender o problema, não de formação em programação. Se esse padrão se confirmar na economia, significa que, embora as ferramentas de programação com IA possam absorver algumas tarefas de implementação, elas também recompensam quem realmente compreende o problema que está resolvendo. Programar agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende de sua área, mais trabalho de alta qualidade o agente pode realizar.

Divisão de trabalho

O que as pessoas fazem com Claude Code

Para entender como as pessoas usam o Claude Code, categorizamos cada sessão em um de nove modos de trabalho, sendo o mais representativo do objetivo principal da sessão. Quatro desses modos envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, e coordenar outros agentes ou pipelines automáticos. Outros envolvem operar software: implantar, configurar, executar pipelines e monitorar sistemas. Há ainda duas categorias mais voltadas a entender "o que fazer": compreender como um sistema existente funciona, e planejar mudanças antes de agir. As duas últimas categorias não envolvem código ou usam código apenas como suporte: análise de dados e comunicação por apresentações ou documentos textuais.

Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, planejar ou explorar 14%, e análise ou elaboração de textos 13% (ver Figura 1).

Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar essa classificação com dados de telemetria automática, como adição ou remoção de linhas de código. Essas duas fontes mostram alta concordância: por exemplo, sessões marcadas como criação ou modificação de código pelo classificador também mostram, em mais de 90% dos casos, mudanças de código na telemetria. Detalhes no apêndice.

Quem toma as decisões

Qual é o grau de autonomia do Claude Code? Avaliações de capacidade indicam que seu limite máximo já é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, modelos de ponta já conseguem realizar tarefas de software que antes levavam horas, de forma autônoma, superando obstáculos por conta própria. Mas, na prática, como isso se manifesta? Aqui, focamos na quantidade de orientação que humanos e Claude fornecem em sessões reais.

Abordamos o tema de duas formas. Primeiro, quanto os humanos delegam decisões ao Claude; segundo, quanto de ação eles atribuem ao Claude. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que analisa o conteúdo da sessão de forma privada. Ele lista todas as decisões relevantes, dividindo-as em planejamento (o que fazer, como fazer, o que constitui sucesso) e execução (quais arquivos modificar, que código escrever, qual linguagem usar, quais comandos rodar). Depois, atribui cada decisão ao Claude ou ao usuário, gerando dois números: a proporção de decisões de planejamento assumidas pelo usuário, e a de execução.

Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das decisões de execução (ver Figura 2). Na prática, a programação com agentes mostra uma divisão clara: humanos decidem o que construir, agentes decidem como construir.

Para entender o grau de delegação de ações, não analisamos o conteúdo, mas a estrutura da sessão. Uma sessão do Claude Code consiste na troca de comandos entre usuário e Claude: o usuário envia um prompt, Claude executa uma ação; depois, o usuário envia outro prompt, e assim por diante. Em sessões típicas, há cerca de quatro rodadas. Nos dados de outubro a abril, cada prompt do usuário geralmente dispara cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, produz em média 2.400 palavras.

A quantidade de trabalho que o Claude realiza entre duas verificações do usuário depende de quem toma as decisões. Quando o usuário mantém o controle da execução, ou seja, toma mais de 80% das decisões de execução, o Claude realiza cerca de 8 ações por rodada. Quando o controle de planejamento fica com o Claude, ou seja, ele toma mais de 80% das decisões de planejamento, o número de ações chega a aproximadamente 16.

Nível de especialização

Com base em cada sessão, o Claude avalia o nível de expertise do usuário na tarefa, usando uma escala de cinco níveis, de iniciante a especialista. O classificador de nível de expertise analisa três sinais: a precisão das instruções do usuário, se o usuário pede para o Claude verificar algo, e se o usuário corrige o Claude mais frequentemente do que o contrário. É importante notar que esse nível de expertise é diferente de cargo ou habilidade geral, sendo específico para cada tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust pela primeira vez ainda é iniciante na tarefa de Rust; por outro lado, um contador que nunca usou Python, mas consegue explicar exatamente as regras de reconciliação de um script Python, é um especialista na tarefa.

A tabela a seguir mostra como definimos os níveis de expertise no classificador, com exemplos de solicitações do conjunto de dados público SWE-chat. Sessões classificadas como "iniciante" apresentam comandos genéricos, sem conhecimento de domínio; sessões de "especialista" demonstram compreensão profunda do código e do ambiente técnico.

Quantificamos a relação entre nível de expertise e quantidade de saída e atividade gerada por cada prompt do Claude. Em sessões típicas de iniciante, cada prompt dispara cerca de 5 ações e gera aproximadamente 600 palavras; em sessões de especialista, o comprimento da cadeia de ações é mais que o dobro, cerca de 12 ações, e a saída chega a aproximadamente 3.200 palavras, cinco vezes mais (ver Figura 3). Essa diferença entre iniciante e especialista aparece em todos os tipos de trabalho e faixas de valor de tarefa.

Esses indicadores complementam nossas pesquisas anteriores sobre autonomia do Claude Code. Antes, acompanhávamos a duração de execução do agente e a frequência com que os usuários aprovavam suas ações automaticamente. Agora, nossos indicadores de atribuição de decisão capturam quem toma decisões substantivas ao longo de toda a sessão, enquanto a quantidade de saída e ações por prompt mede o quanto cada comando humano pode desencadear atividades autônomas do Claude.

Quem usa o Claude Code e para quê

Usuários

Para entender quem está realizando essas tarefas, inferimos a profissão de cada usuário a partir do registro da sessão, mapeando para uma das 23 categorias principais do Sistema de Classificação Ocupacional (SOC) do Bureau of Labor Statistics dos EUA. O classificador usa apenas sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a materiais ou produtos (como documentos legais, dados clínicos, relatórios financeiros, materiais de cursos), e o vocabulário utilizado. É explicitamente proibido que o classificador interprete "está escrevendo código" como prova de profissão de programador. Somente se houver sinais claros de que o trabalho envolve software ou análise de dados, a sessão é classificada na categoria "Profissões de Computação e Matemática". Por exemplo, se um advogado constrói um script para verificar automaticamente a ausência de cláusulas específicas em contratos, mesmo que a sessão seja principalmente sobre codificação, ela será classificada como profissional jurídico. Se não houver sinais sobre a profissão do usuário, a sessão não é classificada.

Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte pertence à categoria "Profissões de Computação e Matemática", o que é esperado, pois abrange a maior parte do trabalho de software. Depois vêm negócios e finanças, artes e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as profissões não relacionadas a software que mais crescem estão gestão, vendas e direito.

Trabalho

De outubro de 2025 a abril de 2026, a composição do trabalho realizado com Claude Code mudou significativamente. A maior mudança foi a redução de sessões de reparo de código danificado, de 33% para 19% (ver Figura 4). Em seu lugar, aumentou o trabalho relacionado à manipulação de código. Operar software passou de 14% para 21%. Escrita e análise de dados quase dobraram, de cerca de 10% para 20%.

O valor das tarefas também aumentou. Estimamos esse valor comparando com os custos de trabalhos similares no mercado de freelancers, usando dados de vagas reais. Segundo essa métrica, o valor médio por sessão aumentou cerca de 27% de outubro a abril. Essa alta ocorreu em várias categorias de trabalho: construção, operação e reparo de código cresceram aproximadamente 43%, 34% e 32%, respectivamente. Essas estimativas de preço são aproximadas e servem principalmente para comparar tendências ao longo do tempo, não como valores monetários exatos. Detalhes do método de cálculo estão no apêndice.

O sucesso depende do que o usuário traz

Estimando o valor da tarefa, podemos entender como o Claude Code ajuda as pessoas a fazerem seu trabalho. Outro aspecto importante é a taxa de sucesso das sessões e os fatores que a influenciam. Em todos os indicadores de sucesso, há um padrão claro: quanto maior o nível de expertise do usuário na sessão, maior a chance de sucesso. A maior parte do ganho ocorre na transição de iniciante para intermediário, enquanto a diferença de intermediário para especialista é menor.

Antes de analisar as características das sessões bem-sucedidas, precisamos definir o que é sucesso. Como não podemos observar os resultados no mundo real nem perguntar diretamente aos usuários, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "determinada como bem-sucedida" por um classificador que avalia se o usuário atingiu seu objetivo original, com categorias como sucesso, sucesso parcial, fracasso ou sem objetivo claro. Dois outros classificadores avaliam a força dessa avaliação, procurando evidências verificáveis de sucesso, como commits, pull requests, testes passando, ou confirmação explícita do usuário. Cada sessão recebe uma pontuação de 1 a 5, de "sem sinal" a "múltiplos sinais fortes". Um classificador paralelo avalia evidências de falha, como erros, testes que falham, tentativas repetidas ou insatisfação do usuário. Para uma sessão ser considerada realmente bem-sucedida, ela deve ser avaliada como sucesso e ter pelo menos um sinal verificável de sucesso. Nosso foco aqui é na avaliação de sucesso ou fracasso, excluindo sessões sem objetivo claro, que representam cerca de 7,7% do total.

Retorno do nível de expertise

Quais sessões têm maior chance de sucesso? Os resultados mostram que o nível de expertise avaliado influencia fortemente o sucesso.

Alguns podem argumentar que o nível de expertise não é o fator principal, pois talvez especialistas escolham tarefas diferentes ou tenham outras diferenças. Para responder a isso, comparamos sessões do mesmo tipo de trabalho, com valores estimados semelhantes, no mesmo mês, com temas similares, de profissionais de uma mesma grande categoria. Assim, podemos isolar o efeito do nível de expertise.

Em todos os indicadores, sessões com maior nível de expertise têm maior probabilidade de sucesso. Sessões classificadas como iniciante têm uma taxa de sucesso verificado de 15%, e 77% alcançam pelo menos sucesso parcial. Já sessões de nível intermediário ou superior apresentam taxas de sucesso verificado entre 28% e 33%, e de sucesso parcial entre 91% e 92% (ver Figura 5).

Na maioria dos indicadores, a maior parte do ganho ocorre na transição de iniciante para intermediário; a melhora de intermediário para especialista é menor. Detalhes da análise de regressão por trás da Figura 5 estão no apêndice.

Também há uma tendência semelhante em sessões problemáticas: quando há sinais verificáveis de falha, a taxa de sucesso verificável aumenta de sessões de iniciante para especialistas, de 4% para 15% (ver Figura 5). Com métricas mais flexíveis, encontramos que pelo menos sucesso parcial ocorre em 60% das sessões de iniciantes, e entre 80% e 81% nas de nível intermediário a especialista.

Além disso, observamos uma relação inversa entre nível de expertise e indicadores de falha. Sessões consideradas fracassadas são aquelas que não atingiram sucesso parcial. Quando uma sessão problemática é considerada fracasso e não há linhas de código escritas, chamamos de sessão abandonada. Entre usuários considerados iniciantes, 19% das sessões são abandonadas, enquanto entre outros grupos, essa proporção varia entre 5% e 7%. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades. Parte do valor do profissional está na capacidade de guiar o agente de volta ao caminho certo.

Profissão pode ser menos importante que o nível de expertise

Usuários de profissões relacionadas a software têm uma taxa de sucesso verificada de cerca de 30%, enquanto outros profissionais têm cerca de 26%. Em sessões que geram código, ou seja, que adicionam ou modificam pelo menos uma linha, esses números sobem para 34% e 29%, respectivamente (ver Figura 6). Com uma definição mais ampla de sucesso, a diferença entre profissões diminui ainda mais. Em sessões de geração de código, a proporção de pelo menos sucesso parcial é de 89% para profissionais de software e 88% para os demais. A diferença de cinco pontos percentuais é pequena, e ao longo de sete meses ela não aumentou nem diminuiu, mesmo com as taxas de sucesso de ambos os grupos crescendo. Nos dez principais grupos profissionais do nosso conjunto de dados, a diferença de sucesso em relação aos engenheiros de software é inferior a sete pontos percentuais. Profissões de gestão apresentam a maior taxa de sucesso verificado, ligeiramente acima da de profissionais de software. Essa maior taxa pode refletir a transferência de habilidades gerenciais para a condução de agentes, ou pode ser uma consequência da nossa métrica, que depende de confirmação explícita do usuário, mais comum entre gestores.

Perspectivas

Os resultados deste relatório delineiam um cenário em formação: a programação com agentes amplifica certas habilidades e conhecimentos, ao mesmo tempo em que substitui outras. Em sessões de geração de código, as principais profissões têm taxas de sucesso próximas às de profissionais de software. Parece que a programação de agentes está tornando menos relevante a experiência em programação para o sucesso na tarefa.

Por outro lado, sessões bem-sucedidas tendem a envolver maior conhecimento de domínio. Sessões de especialistas têm mais que o dobro de sucesso verificado em relação às de iniciantes. Quando há problemas, os iniciantes abandonam com maior frequência. A dinâmica de colaboração fica mais clara: profissionais de domínio conseguem guiar o Claude com cada comando, realizando mais tarefas. Assim, a capacidade de conduzir o Claude ao sucesso depende mais do domínio do que da habilidade de codificar. Quem domina uma área consegue fazer trabalhos que antes eram impossíveis. Quem não tem esse entendimento, mesmo usando as mesmas ferramentas, obtém resultados menores. E o maior benefício vem de competência, não de maestria. Entender operacionalmente uma área já traz grande parte do benefício; especializações profundas oferecem ganhos adicionais, mas limitados.

Essas descobertas ainda são preliminares. Como na maior parte de nossas pesquisas, não podemos medir resultados no mundo real, como se o código gerado foi realmente utilizado ou gerou valor econômico. Além disso, este relatório exclui o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para mensurar esse tipo de uso será uma prioridade futura. Todas as nossas classificações dependem da leitura do modelo sobre as sessões. No apêndice, mostramos que o classificador mantém uma boa consistência com dados de telemetria e com avaliações de referência, na maioria das sessões. Mas, em cenários de grande escala, validar o classificador é difícil; sessões de Claude Code podem ser longas e complexas demais para uma rotulagem manual confiável.

À medida que o modelo, os usuários e a divisão de trabalho evoluem, o cenário aqui apresentado também mudará. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes: se o retorno do nível de expertise começar a cair, isso indicará que o modelo está fornecendo julgamentos essenciais aos usuários, expandindo os benefícios do domínio especializado para um público mais amplo. Se a proporção de usuários de profissões não relacionadas a software que conseguem completar sessões de codificação com sucesso continuar a subir, pode significar que a produção de software está se tornando uma parte comum do trabalho em várias áreas, e não uma atividade exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia do uso de agentes de IA na programação, e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.

Quem é o melhor em usar o Claude Code? A resposta pode não ser um programador

Tendências

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Fixado