Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 12% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Quem é o melhor em usar o Claude Code? A resposta pode não ser um programador
Autor: Anthropoic; Tradução: Peggy, Blockchain Motion
Este relatório é baseado em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação com IA estão mudando a relação entre humanos e código.
A descoberta central do artigo é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos e depurar, mas a definição de objetivos e julgamento de resultados ainda dependem das pessoas.
Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, em tarefas de geração de código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa já têm taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que quer resolver.
Isso significa que a programação com IA reduz a barreira de implementação, não a de julgamento. No futuro, pessoas que entendem de negócios, de cenários, capazes de formular claramente suas necessidades e avaliar resultados, podem usar a IA melhor do que aquelas que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ampliará o valor do conhecimento especializado.
A seguir, o texto original:
Descobertas principais
Com base em estudos anteriores, propusemos uma estrutura para estudar a programação interativa com agentes inteligentes. Essa estrutura é baseada na análise de privacidade de cerca de 400 mil sessões do Claude Code, realizadas entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.
Em uma sessão típica, o humano é responsável pela maior parte do planejamento — decide "o que fazer"; Claude é responsável pela maior parte da execução — decide "como fazer". Quanto maior o conhecimento especializado do usuário em uma área, maior a quantidade de trabalho que Claude realiza a partir de cada comando. Em tarefas de codificação, a taxa média de sucesso — ou seja, se o usuário conseguiu realizar o que pretendia, com evidências verificáveis como testes ou submissões de código — é quase igual à de engenheiros de software.
Quanto maior a expertise do usuário na área, maior a chance de sucesso na sessão. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Em sete meses de observação, a proporção de sessões de depuração caiu quase pela metade, enquanto o uso se voltou mais para abordagens de ponta a ponta: implantação e execução de código, análise de dados, elaboração de documentos não relacionados a código.
Nesses sete meses, o valor das tarefas realizadas aumentou em quase todas as categorias profissionais. Estimamos esse valor comparando com ofertas de trabalho freelance, e o resultado mostra um aumento médio de cerca de 25%.
Introdução
A programação com agentes inteligentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo agentes de codificação dobrou, e os usuários do Claude Code usam a ferramenta em média 20 horas por semana. Pessoas sem experiência formal em programação conseguem comandar um agente para realizar tarefas técnicas complexas? Como a rápida adoção dessas ferramentas e sua evolução de capacidades afetarão o trabalho do conhecimento mais amplo? Ainda não temos respostas definitivas, mas alguns sinais iniciais podem ser vistos nos dados de uso do Claude Code.
Este relatório é baseado na análise de privacidade de cerca de 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornecendo evidências sobre o uso real do Claude Code. Ele continua a nossa pesquisa anterior sobre os indicadores de autonomia nas sessões do Claude Code e como ele muda o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de IA interativos: o que as pessoas fazem, quem faz, e se o trabalho é bem-sucedido. Nosso foco é no uso do Claude Code via linha de comando, Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso de programação com agentes evolui com o aumento das capacidades do modelo, podemos entender melhor o impacto dessas ferramentas para profissionais de programação e o mercado de trabalho do conhecimento.
O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes que se integram cada vez mais às tarefas não relacionadas à codificação. Descobrimos que Claude está lidando com tarefas mais complexas e valiosas. Ao mesmo tempo, a divisão de trabalho na programação com agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.
Também encontramos evidências de que o verdadeiro fator de amplificação do uso de ferramentas é o conhecimento de domínio, não a habilidade de programar. Especialistas de domínio têm mais sucesso e se recuperam mais facilmente de erros ou mal-entendidos. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com conhecimento suficiente em uma área, qualquer pessoa pode usar essas ferramentas de forma eficaz, quase como um especialista.
Essas descobertas nos permitem observar possíveis mudanças no mercado de trabalho. Nosso dado mostra que o sucesso depende de entender o problema, não de treinamento em programação. Se esse padrão se confirmar na economia, isso significa que, embora o agente esteja absorvendo algumas tarefas de implementação, ele também recompensa aqueles que realmente compreendem o problema que estão tentando resolver. Programar agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende de sua área, mais trabalho de alta qualidade o agente pode realizar.
Divisão de trabalho
O que as pessoas fazem com Claude Code
Para entender quem faz o quê, categorizamos cada sessão em um de nove modos de trabalho, o que melhor descreve o objetivo principal da sessão. Quatro desses modos envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, ou coordenar outros agentes ou pipelines automáticos. Outros envolvem operar software: implantar, configurar, executar pipelines e monitorar sistemas. Duas categorias focam em entender "o que fazer": compreender como um sistema existente funciona, ou planejar mudanças antes de agir. As duas últimas categorias não envolvem código ou usam código apenas como suporte: análise de dados e comunicação por apresentações ou documentos baseados em texto.
Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, planejamento ou exploração 14%, análise ou escrita de textos 13% (ver Figura 1).
> Figura 1: Os nove modos de trabalho. Cada sessão interativa é categorizada pelo modo que melhor descreve seu objetivo.
Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar os resultados com os dados de telemetria, incluindo se linhas de código foram adicionadas ou removidas. Essas duas fontes mostram alta concordância. Por exemplo, sessões marcadas como criação ou modificação de código pelo classificador também mostram, em mais de 90% dos casos, mudanças de código na telemetria. Detalhes no apêndice.
Quem toma as decisões
Qual é o grau de autonomia do Claude Code? Avaliações de capacidade mostram que seu limite superior já é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, os modelos de ponta agora podem realizar tarefas de software que antes levavam horas, superando obstáculos por conta própria. Mas, na prática, como isso funciona? Aqui, focamos em quanto as sessões reais mostram que humanos e Claude assumem a maior parte da orientação.
Abordamos isso de duas formas. Primeiro, quanto os humanos delegam decisões ao Claude; segundo, quanto eles atribuem ações ao Claude. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que identifica todas as decisões relevantes na sessão, e as classifica em decisões de planejamento (o que fazer, como fazer, o que significa completar) e de execução (quais arquivos modificar, que código escrever, em que linguagem, quais comandos executar). Depois, o classificador atribui cada decisão ao Claude ou ao usuário, gerando dois números: a proporção de decisões de planejamento atribuídas ao usuário, e a de decisões de execução atribuídas ao usuário.
Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das decisões de execução (ver Figura 2). Na prática, a programação com agentes mostra uma divisão clara: humanos decidem o que construir, agentes decidem como construir.
Para entender o grau de delegação de ações, não olhamos o conteúdo, mas a estrutura da sessão. Uma sessão do Claude Code consiste na troca de comandos entre usuário e Claude: o usuário envia um prompt, Claude executa uma ação; o usuário envia outro prompt, e assim por diante. Em sessões típicas, há cerca de quatro rodadas. Nos dados de outubro a abril, cada prompt do usuário geralmente aciona cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, e produz em média 2400 palavras.
Quanto Claude realiza de trabalho entre duas verificações do usuário depende bastante de quem toma as decisões. Quando o usuário mantém o controle das ações, fazendo mais de 80% das decisões de execução, o Claude realiza cerca de 8 ações por rodada. Quando o Claude assume o controle de planejamento, fazendo mais de 80% das decisões de planejamento, o número de ações chega a aproximadamente 16.
> Figura 2: Proporção de decisões de planejamento e execução atribuídas ao Claude. Mostra a distribuição de sessões típicas, em que o usuário toma cerca de 70% das decisões de planejamento, enquanto o Claude realiza cerca de 80% das ações de execução.
Nível de especialização
Para cada sessão, o Claude avalia o nível de especialização aparente do usuário na tarefa, numa escala de cinco níveis, de iniciante a especialista. O classificador de especialização se baseia em três sinais: quão precisas são as instruções do usuário, o que ele pede para o Claude verificar, e se o usuário corrige mais o Claude ou o Claude corrige o usuário. É importante notar que esse nível de especialização é diferente de cargo ou habilidade geral, sendo específico para a tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust na primeira vez pode ainda ser iniciante na tarefa de Rust. Um contador que nunca usou Python, mas consegue explicar ao Claude as regras de reconciliação para um script Python, e identificar erros na contabilidade de fim de mês, é considerado especialista na tarefa.
A tabela a seguir mostra como definimos os níveis de especialização no classificador, com exemplos de solicitações do conjunto de dados público SWE-chat. Sessões classificadas como "iniciante" apresentam comandos genéricos, sem conhecimento de domínio; sessões de "especialista" demonstram compreensão profunda do código e do ambiente técnico.
> Tabela 1: Classificador de níveis de especialização. Exemplos de sessões reais do conjunto de dados SWE-chat, reescritos, anonimizados e resumidos, classificados pelo nosso modelo. Muitos exemplos vêm de dados públicos de sessões de programação com agentes.
Quantificamos a relação entre nível de especialização, quantidade de saída gerada por cada prompt, e número de ações. Em sessões típicas de iniciante, cada prompt aciona cerca de 5 ações e gera aproximadamente 600 palavras; em sessões de especialista, o número de ações é mais que o dobro, cerca de 12, e a saída chega a aproximadamente 3200 palavras, cinco vezes mais (ver Figura 3). Essa diferença entre iniciante e especialista aparece em todos os tipos de trabalho e faixas de valor de tarefa.
Esses indicadores complementam nossa pesquisa anterior sobre autonomia do Claude Code. Antes, acompanhávamos o tempo de execução do agente e a frequência com que os usuários aprovavam suas ações automaticamente. Agora, o foco é na atribuição de decisões, ou seja, quem realmente decide na sessão, enquanto a quantidade de saída e ações por prompt mede o quanto o comando humano consegue gerar de atividade autônoma do Claude.
> Figura 3: Quanto mais profissional o usuário, mais trabalho o Claude realiza por prompt. Quanto maior o nível de especialização, maior o número de ações geradas por prompt (esquerda) e a quantidade de texto produzida (direita). As caixas representam o intervalo interquartil, com a mediana no centro. As linhas de bigode vão do 5º ao 95º percentil. Os pontos brancos são médias geométricas. Ambas as tendências são estatisticamente significativas (p < 0,001). Cada passo entre níveis de especialização também é significativo. Controlando por modo de trabalho, valor da tarefa, mês, profissão e série do modelo, e agrupando por usuário, a tendência permanece: a cada nível de especialização, o número de ações aumenta 9%, e a quantidade de saída, 13%.
Quem usa o Claude Code e para quê
Usuários
Para entender quem faz o quê, inferimos a profissão de cada usuário com base no registro da sessão, mapeando para uma das 23 categorias principais do sistema de classificação de profissões do Departamento de Trabalho dos EUA (SOC). O classificador avalia apenas sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a documentos ou produtos — como contratos, dados clínicos, relatórios financeiros, materiais de cursos — e o vocabulário usado. É explicitamente proibido usar "está escrevendo código" como evidência de ser programador. Só se houver sinais claros de que o trabalho envolve software ou dados, a sessão é classificada como relacionada a "computação e matemática". Por exemplo, se um advogado cria um script para verificar automaticamente cláusulas contratuais, mesmo que a maior parte da sessão seja sobre programação, ela será classificada como trabalho jurídico. Se não houver sinais sobre a profissão do usuário, a sessão não é classificada.
Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte é de "computação e matemática", o que é esperado, pois esse grupo cobre a maioria dos trabalhos de software. Depois vêm negócios e finanças, arte e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as profissões não relacionadas a software que mais crescem estão gestão, vendas e direito.
Trabalho
De outubro de 2025 a abril de 2026, a composição do trabalho realizado com Claude Code mudou significativamente. A maior mudança foi a queda na proporção de sessões de reparo de código danificado, de 33% para 19% (ver Figura 4). Em seu lugar, aumentou o trabalho envolvendo operações de software, de 14% para 21%. Escrita e análise de dados quase dobraram, de cerca de 10% para 20%.
O valor econômico das tarefas também aumentou. Estimamos esse valor comparando com custos de trabalhos similares no mercado freelance, ajustando com dados de vagas reais. Segundo essa métrica, o valor médio por sessão aumentou 27% entre outubro e abril. Esse aumento ocorreu em várias categorias de trabalho. Tarefas de construção, operação e reparo tiveram aumentos de aproximadamente 43%, 34% e 32%, respectivamente. Essas estimativas de preço são aproximadas, usadas principalmente para comparar tendências ao longo do tempo, não como valores monetários exatos. Detalhes na seção de apêndice.
> Figura 4: Mudanças na composição e valor do trabalho com Claude Code de outubro de 2025 a abril de 2026. Mostra a proporção de diferentes modos de trabalho ao longo de sete meses. Reparo de código caiu de 33% para 19%, enquanto operação de software, análise de dados e elaboração de documentos aumentaram.
O sucesso depende do que o usuário traz
Estimando o valor das tarefas, podemos entender como o Claude Code ajuda as pessoas a fazerem seu trabalho. Outro aspecto importante é quantas sessões são bem-sucedidas e quais características delas estão relacionadas ao sucesso. Em todos os indicadores de sucesso, há um padrão claro: quanto maior o nível de especialização do usuário na sessão, maior a chance de sucesso. A maior parte dessa diferença ocorre entre iniciantes e intermediários, sendo menor a diferença de intermediários para especialistas.
Antes de analisar as sessões bem-sucedidas, precisamos definir o que é sucesso. Não podemos observar os resultados reais no mundo, nem perguntar diretamente aos usuários se conseguiram fazer o que queriam. Assim, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "sucesso verificado", que, após leitura completa da sessão, avalia se o usuário atingiu seu objetivo, com categorias como sucesso, parcialmente bem-sucedido, fracasso ou sem objetivo claro. Dois classificadores associados avaliam a força dessa evidência, atribuindo uma pontuação de 1 a 5. Um classificador paralelo avalia evidências de fracasso, como erros, testes falhados, tentativas repetidas ou insatisfação do usuário. Para considerar uma sessão como "verificada como sucesso", ela deve ser classificada como sucesso e ter pelo menos uma forte evidência de sucesso. Sessões sem sinais claros de sucesso ou fracasso são excluídas, representando cerca de 7,7% do total.
Retorno do nível de especialização
Então, quais sessões têm maior probabilidade de sucesso? Os resultados mostram que a pontuação de especialização do usuário tem grande impacto.
Alguns podem argumentar que o nível de especialização não é a causa do sucesso, mas uma consequência de tarefas mais fáceis ou de outros fatores. Para responder, comparamos sessões do mesmo tipo de trabalho, com valor estimado semelhante, no mesmo mês, com o mesmo tema, do mesmo grupo profissional, e controlando por outros fatores. Assim, podemos avaliar o efeito do nível de especialização de forma mais isolada.
> Tabela 2: Definições de sucesso e fracasso derivadas do classificador. Exemplos de sessões reais do conjunto SWE-chat, reescritos, anonimizados e resumidos, classificados pelo nosso modelo. Muitos exemplos vêm de dados públicos de sessões de programação com agentes.
Em todos os indicadores, quanto maior o nível de especialização do usuário, maior a chance de sucesso. Sessões classificadas como "iniciante" têm uma taxa de sucesso verificado de 15%, e de pelo menos parcial de 77%. Já sessões de nível intermediário ou superior apresentam taxas de sucesso verificado entre 28% e 33%, e de parcial entre 91% e 92% (ver Figura 5).
Na maioria dos indicadores, a maior parte da melhora ocorre ao passar de iniciante para intermediário; de intermediário para especialista, a taxa de aumento é menor. Detalhes da análise de regressão estão no apêndice.
> Figura 5: Relação entre nível de especialização e desfecho da sessão. Mostra, por nível de especialização, a proporção de sessões que atingiram diferentes definições de sucesso ou fracasso, considerando apenas sessões com sinais de problema (falha, erro, tentativas repetidas, insatisfação). Cada ponto é uma proporção ajustada. As sessões foram agrupadas por modo de trabalho, valor da tarefa, mês, tema, e tipo de usuário (profissional de software ou não). As linhas de erro representam intervalos de confiança de 95%. Sessões sem sinais claros de sucesso foram excluídas.
Mesmo em sessões desafiadoras, há uma relação semelhante: quando há evidências verificadas de falha, a chance de sucesso verificado é menor para iniciantes (4%) e maior para especialistas (15%) (ver Figura 5). Usando critérios mais relaxados, a taxa de pelo menos parcial sucesso é de 60% para iniciantes, e entre 80% e 81% para intermediários e especialistas.
Também observamos uma relação inversa: maior nível de especialização reduz a probabilidade de fracasso. Sessões sem qualquer código escrito, mesmo após problemas, são consideradas abandonadas. Entre iniciantes, 19% das sessões são abandonadas, enquanto entre outros grupos, essa proporção é de 5% a 7%. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades. Parte do valor do profissional está na capacidade de guiar o agente de volta ao caminho certo.
Profissão pode ser menos importante que o nível de especialização
Usuários de profissões relacionadas a software têm uma taxa de sucesso verificado de cerca de 30%, enquanto outros profissionais têm cerca de 26%. Em sessões que geram código, essas taxas são 34% e 29%, respectivamente (ver Figura 6). Com critérios mais relaxados, a diferença diminui ainda mais. Em sessões de geração de código, a proporção de pelo menos parcial sucesso é de 89% para profissionais de software e 88% para outros. A diferença de cinco pontos percentuais é pequena, e não aumentou nem diminuiu ao longo de sete meses, mesmo com melhorias gerais nas taxas de sucesso. Entre os dez maiores grupos profissionais, a maioria tem uma taxa de sucesso dentro de sete pontos percentuais da de engenheiros de software. Gestão apresenta a maior taxa de sucesso verificado, ligeiramente acima de profissionais de software. Essa maior taxa pode refletir a transferência de habilidades de gestão para comandar agentes, ou pode ser uma limitação da nossa medição, que depende de confirmação explícita do usuário, mais comum entre gestores.
> Figura 6: Taxa de sucesso verificado e fracasso por profissão inferida. Mostra, entre sessões que geraram pelo menos uma linha de código, a proporção de sucesso e fracasso, por profissão inferida. Os dez maiores grupos profissionais estão representados. Todos têm uma diferença de até sete pontos percentuais em sucesso em relação aos profissionais de computação/matemática (SOC). As linhas de erro representam intervalos de confiança de 95%.
Perspectivas
Os resultados deste relatório delineiam um cenário em formação: a programação com agentes amplia certas habilidades e conhecimentos, ao mesmo tempo em que substitui outras. Para sessões de geração de código, as taxas de sucesso de diferentes profissões se aproximam das de profissionais de software. Parece que a capacidade de programar agentes está tornando menos relevante ter formação em programação para alcançar sucesso.
Por outro lado, sessões bem-sucedidas tendem a envolver mais conhecimento de domínio. Sessões de especialistas têm mais do dobro de sucesso verificado do que iniciantes. Quando há problemas, iniciantes abandonam com maior frequência. A colaboração em si reforça essa visão: especialistas conseguem guiar Claude com cada comando para fazer mais trabalho. Assim, a habilidade de levar o Claude ao sucesso depende mais do domínio do conhecimento do que de habilidades de codificação. Quem domina uma área consegue fazer tarefas que antes eram impossíveis. Quem não tem essa compreensão, mesmo usando as mesmas ferramentas, obtém resultados muito menores. E o benefício vem mais de competência do que de maestria. Entender operacionalmente uma área já traz grande parte do benefício; especialização profunda oferece ganhos adicionais, mas menores.
Essas descobertas ainda são iniciais. Como na maior parte de nossas pesquisas, não podemos medir resultados no mundo real, como se o código gerado foi realmente utilizado ou gerou valor econômico. Além disso, este relatório exclui o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para medir esse uso será uma prioridade futura. Todas as nossas classificações dependem da leitura do modelo sobre o registro da sessão. No apêndice, mostramos que o classificador mantém uma boa concordância com dados de telemetria, na maioria das sessões, e com julgamentos de referência. Mas, em larga escala, validar o classificador é difícil; sessões de Claude Code podem ser longas e complexas, dificultando a marcação manual como padrão de verdade.
À medida que modelos, usuários e a divisão de trabalho evoluem, o cenário aqui descrito também mudará. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes: se o retorno ao nível de especialização começar a cair, isso indicará que os modelos estão fornecendo julgamentos essenciais atualmente feitos pelos usuários, e que os benefícios se expandem de especialistas para o público geral. Se o sucesso de usuários fora da área de software continuar a subir, pode significar que a produção de software está se tornando parte do trabalho comum em várias áreas, não mais uma atividade exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia da programação com agentes, e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.