Quem é que usa Claude Code melhor? A resposta pode não ser um programador

> Título original: Agentic coding and persistent returns to expertise
> Autor original: Anthropoic
> Tradução: Peggy
>

Nota do editor: Este relatório baseia-se em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação com IA estão mudando a relação entre humanos e código.

A descoberta mais central é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto o Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto o Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos, depurar, mas a definição de objetivos e a avaliação de resultados ainda dependem das pessoas.

Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, nas tarefas de geração de código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa científica já têm taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que quer resolver.

Isso significa que a programação com IA reduz a barreira de entrada para implementação, mas não a de julgamento. No futuro, pessoas que entendem de negócios, de cenários, capazes de formular claramente demandas e avaliar resultados, podem usar a IA de forma mais eficaz do que aquelas que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ampliará o valor desse conhecimento.

A seguir, o texto original:

Descobertas principais

Com base em estudos anteriores, propusemos uma estrutura para estudar a programação de agentes inteligentes interativos. Essa estrutura é fundamentada na análise de privacidade de cerca de 400 mil sessões do Claude Code entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.

Em uma sessão típica, o humano é responsável pela maior parte das decisões de planejamento, ou seja, decide "o que fazer"; o Claude é responsável pela maior parte das decisões de execução, ou seja, "como fazer". Quanto maior a expertise do usuário na área, maior o volume de trabalho que o Claude realiza por comando. Nas tarefas de codificação, a taxa média de sucesso — ou seja, a proporção de casos em que o usuário conseguiu realizar o que pretendia, com evidências verificáveis como testes ou submissões de código — é praticamente igual à dos engenheiros de software.

Quanto maior a competência do usuário na área, maior a chance de a sessão terminar com sucesso. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Em sete meses de observação, a proporção de sessões de depuração caiu quase pela metade, enquanto o uso se voltou mais para abordagens de ponta a ponta: implantação e execução de código, análise de dados, elaboração de documentos não relacionados a código.

Durante esses sete meses, o valor das tarefas quase aumentou em todas as categorias de trabalho. Estimamos esse valor comparando com os custos de trabalhos similares no mercado de freelancing, ajustando com dados de vagas reais. Segundo essa métrica, o valor médio de uma sessão aumentou cerca de 25% de outubro a abril.

Introdução

A programação com agentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo atividades de agentes de codificação dobrou, e os usuários do Claude Code usam a ferramenta em média 20 horas por semana. Pessoas sem experiência formal em programação conseguem comandar um agente para tarefas complexas? Como a rápida adoção dessas ferramentas e sua evolução de capacidades afetarão o trabalho do conhecimento mais amplo? Ainda não temos respostas definitivas, mas sinais iniciais podem ser vistos nos dados de uso do Claude Code.

Este relatório, baseado na análise de privacidade de cerca de 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornece evidências sobre o uso real do Claude Code. Ele continua nossas pesquisas anteriores sobre a autonomia dos agentes nas sessões do Claude Code e como eles mudam o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de IA interativos: o que as pessoas fazem, quem faz, e se o trabalho é bem-sucedido. Nosso foco é no uso do Claude Code via interface de linha de comando (CLI), Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso de programação de agentes evolui com o aumento das capacidades do modelo, podemos entender melhor o impacto dessas ferramentas em profissionais de programação e no mercado de trabalho do conhecimento.

O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes se tornando parte de tarefas não relacionadas à codificação. Descobrimos que o Claude está lidando com tarefas mais complexas e valiosas. Ao mesmo tempo, a divisão de trabalho na programação com agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.

Também encontramos evidências de que o verdadeiro fator que amplifica o uso eficaz das ferramentas é o conhecimento de domínio, não a habilidade de programar. Especialistas de domínio têm mais sucesso e se recuperam melhor de erros e mal-entendidos. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com suficiente domínio de uma área, qualquer pessoa pode usar essas ferramentas de forma quase tão eficaz quanto um especialista profundo.

Essas descobertas nos permitem observar possíveis mudanças no mercado de trabalho. Nossos dados mostram que o sucesso depende mais de entender o problema do que de treinamento em programação. Se esses padrões se confirmarem na economia, isso significa que, embora as ferramentas de IA possam absorver algumas tarefas de implementação, elas também recompensam quem realmente compreende os problemas que tenta resolver. Programar agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende do seu campo, mais trabalho de alta qualidade o agente pode realizar.

Divisão de trabalho

O que as pessoas fazem com Claude Code

Para entender como as pessoas usam o Claude Code, categorizamos cada sessão em um de nove modos de trabalho, o que melhor descreve o objetivo principal da sessão. Quatro desses modos envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, ou coordenar outros agentes ou pipelines automáticos. Outros envolvem operar software: implantar, configurar, executar pipelines e monitorar sistemas. Dois modos focam em entender "o que fazer": compreender como um sistema existente funciona, ou planejar mudanças antes de agir. Os últimos dois não envolvem código diretamente, ou usam código apenas como suporte: análise de dados, ou comunicação por apresentações e documentos textuais.

Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, planejar ou explorar 14%, analisar ou escrever textos 13% (ver Figura 1).

> Figura 1: Os nove modos de trabalho. Cada sessão interativa é classificada como o modo que melhor descreve seu objetivo.

Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar os resultados com os dados de telemetria, incluindo se houve adição ou remoção de linhas de código. Essas duas fontes mostram alta concordância. Por exemplo, em sessões marcadas pelo classificador como criação ou modificação de código, mais de 90% também mostram mudanças de código na telemetria. Detalhes no apêndice.

Quem toma as decisões

Qual é o grau de autonomia do Claude? Avaliações indicam que seu potencial máximo é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, os modelos mais avançados já podem realizar tarefas de software que antes levavam horas, superando obstáculos por conta própria. Mas na prática, como isso se manifesta? Aqui, analisamos quanto de orientação humana cada sessão realmente exige.

Abordamos o tema de duas formas. Primeiro, quanto os humanos delegam decisões ao Claude; segundo, quanto de ação eles atribuem ao agente. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que identifica todas as decisões relevantes na sessão e as classifica em decisões de planejamento (o que fazer, como fazer, o que significa completar) e de execução (quais arquivos modificar, que código escrever, em que linguagem, quais comandos rodar). Depois, atribuímos cada decisão ao Claude ou ao usuário, gerando duas métricas: a proporção de decisões de planejamento atribuídas ao usuário, e a de decisões de execução atribuídas ao usuário.

Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das de execução (ver Figura 2). Na prática, a programação com agentes mostra uma divisão clara: humanos decidem o que construir, agentes decidem como construir.

Para entender o grau de delegação de ações, não olhamos o conteúdo, mas a estrutura da sessão. Uma sessão do Claude Code consiste na troca de comandos entre usuário e agente: o usuário envia um prompt, o Claude executa uma ação; depois, o usuário envia outro prompt, e assim por diante. Em sessões típicas, há cerca de quatro rodadas. Nos dados de outubro a abril, cada prompt do usuário geralmente aciona cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, produz em média 2400 palavras.

A quantidade de trabalho que o Claude realiza entre duas verificações do usuário depende bastante de quem toma as decisões. Quando o usuário mantém o controle das ações, fazendo mais de 80% das decisões de execução, o Claude realiza cerca de 8 ações por rodada. Quando o Claude assume o controle de planejamento, fazendo mais de 80% das decisões de planejamento, o número de ações sobe para cerca de 16.

> Figura 2: Proporção de decisões de planejamento e execução atribuídas ao Claude. Mostra a distribuição de sessões típicas, onde cerca de 70% das decisões de planejamento vêm do usuário, e cerca de 80% das decisões de execução vêm do Claude.

Nível de especialização

Para cada sessão, o Claude avalia o nível de especialização aparente do usuário na tarefa, numa escala de cinco níveis, de iniciante a especialista. Essa classificação se baseia em três sinais: a precisão das instruções do usuário, o que ele pede para o Claude verificar, e quem costuma corrigir quem — o usuário ou o próprio Claude. É importante notar que esse nível de especialização é diferente de cargo ou habilidade geral, sendo específico para cada tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust pela primeira vez ainda pode ser iniciante na tarefa de Rust; um contador que nunca usou Python, mas consegue explicar regras de reconciliação financeira para um script Python, é considerado especialista na tarefa.

A tabela a seguir mostra como definimos esses níveis na classificação, com exemplos de solicitações do conjunto de dados público SWE-chat. Sessões classificadas como "iniciante" geralmente envolvem comandos genéricos, sem conhecimento de domínio; sessões de "especialista" demonstram compreensão profunda do código e do ambiente técnico.

> Tabela 1: Classificação de níveis de especialização. Exemplos de sessões reais, reescritos, anonimizados e resumidos, marcados pelo nosso classificador. Muitos exemplos vêm do conjunto de dados público SWE-chat.

Quantificamos a relação entre nível de especialização, quantidade de ações do Claude por prompt, e volume de texto gerado. Em sessões típicas de iniciante, cada prompt aciona cerca de 5 ações do Claude e gera aproximadamente 600 palavras; em sessões de especialista, o número de ações é mais que o dobro, cerca de 12, e o volume de texto chega a aproximadamente 3200 palavras, cinco vezes mais (ver Figura 3). Essa diferença entre iniciantes e especialistas aparece em todos os tipos de trabalho e faixas de valor de tarefa.

Esses indicadores complementam nossas pesquisas anteriores sobre a autonomia do Claude Code. Antes, acompanhávamos o tempo de execução do agente e a frequência com que os usuários aprovavam suas ações automaticamente. Agora, nossos indicadores de atribuição de decisão capturam quem toma decisões substantivas na sessão, enquanto o volume de saída e o número de ações por prompt medem o quanto cada comando humano pode desencadear autonomia do Claude.

> Figura 3: Quanto mais profissional o usuário, mais trabalho o Claude realiza por prompt. Quanto maior o nível de especialização, maior o número de ações geradas por prompt (esquerda) e o volume de texto produzido (direita). As caixas representam o intervalo interquartil, a linha mediana, e os pontos brancos a média geométrica. As tendências de aumento são estatisticamente significativas (p < 0,001), e cada passo entre níveis também é. Mesmo controlando por modo de trabalho, valor da tarefa, mês, profissão e série do modelo, a tendência permanece significativa: a cada nível de especialização, o número de ações aumenta 9%, e o volume de texto, 13%.

Quem usa o Claude Code e para quê

Usuários

Para entender quem está realizando essas tarefas, inferimos a profissão de cada usuário a partir do registro da sessão, mapeando para uma das 23 categorias principais do sistema de classificação de profissões do Bureau of Labor Statistics dos EUA. O classificador avalia apenas sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a materiais ou produtos (como documentos legais, dados clínicos, relatórios financeiros, materiais de cursos), e o vocabulário usado. É explicitamente proibido considerar "está escrevendo código" como evidência de uma profissão de programador. Só se houver sinais claros de que o trabalho envolve software ou dados, a sessão é classificada como relacionada à área de computação e matemática. Por exemplo, um advogado que constrói um script para verificar automaticamente cláusulas contratuais será classificado na área jurídica, mesmo que a maior parte da sessão envolva programação. Se não houver sinais de profissão, a sessão não é classificada.

Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte pertence à categoria "profissões de computação e matemática", o que é esperado, pois abrange a maior parte do trabalho de software. Depois vêm negócios e finanças, artes e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as categorias que mais crescem estão gestão, vendas e direito.

Trabalho

De outubro de 2025 a abril de 2026, a composição das tarefas realizadas com Claude Code mudou significativamente. A maior mudança foi na redução de sessões de reparo de código danificado, que caiu de 33% para 19% (ver Figura 4). Em seu lugar, aumentaram tarefas relacionadas à manipulação de código. Operar software passou de 14% para 21%. Escrita e análise de dados quase dobraram, de cerca de 10% para 20%.

O valor econômico das tarefas também aumentou. Estimamos esse valor comparando com custos de trabalhos similares no mercado de freelancing, ajustando com dados de vagas reais. Segundo essa métrica, o valor médio por sessão aumentou cerca de 27% de outubro a abril. Essa alta ocorreu em várias categorias de trabalho: construção, operação e reparo aumentaram aproximadamente 43%, 34% e 32%, respectivamente. Esses valores são estimativas grosseiras, usadas principalmente para comparar tendências ao longo do tempo, não como valores monetários exatos. Detalhes na seção de apêndice.

> Figura 4: Mudanças na composição e valor das tarefas com Claude Code de outubro de 2025 a abril de 2026. Mostra a proporção de diferentes modos de trabalho ao longo de sete meses. Reparo de código caiu de 33% para 19%, enquanto operação de software, análise de dados e elaboração de documentos aumentaram.

O que importa é o que o usuário traz para a sessão

Estimando o valor das tarefas, podemos entender como o Claude Code ajuda as pessoas a fazerem seu trabalho. Outro aspecto importante é quantificar o sucesso das sessões e quais características estão relacionadas ao sucesso. Em todos os indicadores de sucesso, há um padrão claro: quanto maior o nível de especialização do usuário, maior a chance de sucesso. A maior parte dessa melhora ocorre na transição de iniciante para intermediário, sendo que a diferença de intermediário para especialista é menor.

Antes de analisar as sessões bem-sucedidas, precisamos definir o que é sucesso. Como não podemos observar os resultados no mundo real nem perguntar diretamente aos usuários, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "sucesso verificado", que avalia se o usuário atingiu seu objetivo original após leitura completa da sessão, com categorias como sucesso, parcialmente bem-sucedido, fracasso ou sem objetivo claro. Dois classificadores associados avaliam a força dessa evidência, atribuindo uma pontuação de 1 a 5. O segundo classificador avalia sinais de fracasso, como erros, testes falhados, tentativas repetidas ou insatisfação do usuário. Para uma sessão ser considerada bem-sucedida, ela deve ser classificada como sucesso e ter pelo menos um sinal verificável de sucesso. Essas análises excluem cerca de 7,7% das sessões, que não apresentam objetivo claro.

Retorno do investimento na especialização

Quais sessões têm maior probabilidade de sucesso? Os resultados mostram que o nível de especialização do usuário tem grande impacto.

Alguns podem argumentar que a especialização não é o fator principal, talvez porque especialistas escolhem tarefas diferentes ou têm outras diferenças. Para responder, comparamos sessões do mesmo tipo de trabalho, com valor estimado semelhante, no mesmo mês, com o mesmo tema, do mesmo grupo profissional. Isso ajuda a isolar o efeito do nível de especialização.

> Tabela 2: Definições de sucesso e fracasso derivadas do classificador. Exemplos de sessões reais do conjunto de dados SWE-chat, reescritos, anonimizados e resumidos, marcados pelo nosso classificador.

Em todos os indicadores, sessões de usuários mais especializados têm maior chance de sucesso. Sessões classificadas como iniciante têm apenas 15% de sucesso verificado, e 77% de pelo menos parcial sucesso. Já sessões de intermediários e especialistas têm taxas de sucesso verificadas entre 28% e 33%, e de pelo menos parcial entre 91% e 92% (ver Figura 5).

Na maioria dos indicadores, a maior melhora ocorre na transição de iniciante para intermediário; a partir daí, a taxa de aumento diminui. Detalhes da análise de regressão estão no apêndice.

> Figura 5: Relação entre nível de especialização e resultados da sessão. Mostra, por nível de especialização (de iniciante a especialista), a proporção de sessões bem-sucedidas, fracassadas ou com sinais de problema. Os pontos representam proporções ajustadas, comparando sessões do mesmo modo de trabalho, valor, mês, tema e profissão. As linhas de erro representam intervalos de confiança de 95%. Essas sessões excluem as sem objetivo claro.

Mesmo em sessões desafiadoras, há uma relação semelhante: quando há sinais verificáveis de fracasso, a chance de sucesso diminui de sessões de iniciante para especialistas. Quando há sinais de problema, a taxa de sucesso verificado sobe de 4% em iniciantes para 15% em especialistas (ver Figura 5). Usando critérios mais flexíveis, a taxa de pelo menos parcial sucesso é de 60% em iniciantes, e entre 80% e 81% em intermediários e especialistas.

Também acompanhamos uma relação inversa: quanto maior o nível de especialização, menor a taxa de fracasso. Sessões sem sucesso, ou seja, sem atingir nem mesmo parcialmente o objetivo, são chamadas de "abandonadas" se não houver código escrito. Em sessões de usuários iniciantes, 19% acabam abandonadas, enquanto em outros grupos essa proporção é de 5% a 7%. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades. Parte do valor da especialização está na capacidade de guiar o agente na direção certa.

Profissão pode ser menos importante que o nível de especialização

Usuários de profissões relacionadas a software têm uma taxa de sucesso verificado de cerca de 30%, enquanto outros profissionais chegam a 26%. Em sessões que geram código, essas taxas sobem para 34% e 29%, respectivamente (ver Figura 6). Com critérios mais flexíveis, a diferença entre profissões diminui ainda mais. Em sessões de geração de código, a proporção de sucesso parcial é de 89% para profissionais de software e 88% para outros. A diferença de cinco pontos percentuais é pequena, e não aumentou nem diminuiu ao longo de sete meses, mesmo com melhorias gerais nas taxas. Entre as dez maiores categorias profissionais do nosso conjunto de dados, nenhuma apresenta uma diferença maior que sete pontos percentuais em relação aos engenheiros de software. Profissões de gestão apresentam a maior taxa de sucesso verificado, ligeiramente acima de software. Essa maior taxa pode refletir a transferência de habilidades gerenciais para comandar agentes, ou pode ser uma consequência da nossa métrica, que depende de confirmação explícita do usuário, algo mais comum entre gestores.

> Figura 6: Taxa de sucesso verificado e sucesso parcial em sessões de codificação, por profissão inferida. Mostra, para as dez maiores categorias profissionais, a proporção de sessões que atingiram sucesso verificado ou parcial, considerando pelo menos uma linha de código modificada ou adicionada. Cada ponto representa uma proporção ajustada, com intervalos de confiança de 95%. As diferenças entre profissionais de software/matemática e outras categorias são menores que sete pontos percentuais.

Perspectivas

Os resultados deste relatório delineiam um cenário em formação: a programação com agentes amplia certas habilidades e conhecimentos, enquanto substitui outras. Em sessões de geração de código, as taxas de sucesso de diferentes profissões se aproximam das de profissionais de software. Parece que a capacidade de programar agentes está tornando menos relevante ter formação em programação para alcançar sucesso.

Por outro lado, sessões bem-sucedidas tendem a envolver mais conhecimento de domínio. Sessões de especialistas têm mais que o dobro de sucesso verificado em relação a iniciantes. Quando há problemas, iniciantes abandonam com maior frequência. A colaboração mostra que especialistas podem usar comandos para guiar o Claude a fazer mais trabalho. Assim, a habilidade de levar o Claude ao sucesso depende mais do domínio do assunto do que de escrever código. Quem domina uma área consegue fazer tarefas que antes eram impossíveis. Quem não tem esse entendimento, mesmo usando as mesmas ferramentas, obtém resultados muito menores. E o benefício vem mais de competência do que de maestria. Entender bem uma área já traz grande vantagem; aprofundar essa expertise traz ganhos adicionais, mas menores.

Essas descobertas ainda são iniciais. Como na maior parte de nossas pesquisas, não podemos medir resultados no mundo real, como se o código gerado é realmente utilizado ou gera valor econômico. Além disso, este relatório exclui o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para mensurar esse uso será uma prioridade futura. Todas as nossas classificações dependem do modelo interpretar as sessões, e no apêndice mostramos que o classificador mantém boa consistência com dados de telemetria, na maioria das sessões, e com julgamentos de referência. Ainda assim, validar esses classificadores em larga escala é difícil, especialmente porque as sessões de Claude Code podem ser longas e complexas, dificultando a marcação manual como padrão de verdade.

À medida que os modelos evoluem, os usuários mudam, e a divisão de trabalho entre ambos também, as representações aqui apresentadas irão se atualizar. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes. Por exemplo, se o retorno do nível de especialização começar a cair, isso indicará que os modelos estão fornecendo julgamentos essenciais que antes dependiam do especialista, expandindo os benefícios para um público mais amplo. Se o sucesso de usuários fora da área de software continuar crescendo, pode significar que a produção de software está se tornando uma parte comum do trabalho em várias áreas, não mais uma atividade exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia da programação com agentes, e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.

[Link do original]

Clique para conhecer as vagas na BlockBeats em recrutamento

Participe do grupo oficial da BlockBeats no Telegram:
https://t.me/theblockbeats

Grupo de discussão no Telegram:
https://t.me/BlockBeats_App

Conta oficial no Twitter:
https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado