Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
CFD
Derivados CFD de ações dos EUA
Ações dos EUA
Aceder a ações e ETF reais dos EUA
Ações de Hong Kong
Negociar ações de qualidade cotadas em Hong Kong
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Garantido por ativos de ações reais
IPO Access
Desbloquear acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negociar ações populares e desbloquear airdrops generosos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
IPO Access
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
Quem é que usa Claude Code melhor? A resposta pode não ser um programador
Autor: Anthropoic; Tradução: Peggy, Blockchain Motion
Este relatório baseia-se em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação AI estão mudando a relação entre humanos e código.
A descoberta central do artigo é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto o Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto o Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos e depurar, mas a definição de objetivos e avaliação de resultados ainda dependem das pessoas.
Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, em tarefas de geração de código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa científica já apresentam taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que deseja resolver.
Isso significa que a programação com IA reduz a barreira de implementação, não a de julgamento. No futuro, pessoas que entendem de negócios, de cenários, capazes de formular claramente suas necessidades e avaliar resultados, podem usar a IA de forma mais eficaz do que aquelas que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ampliará o valor do conhecimento especializado.
A seguir, o texto original:
Descobertas principais
Com base em estudos anteriores, propusemos uma estrutura para estudar a programação interativa com agentes inteligentes. Essa estrutura é fundamentada na análise de privacidade de cerca de 400 mil sessões do Claude Code, realizadas entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.
Em uma sessão típica, o humano é responsável pela maior parte das decisões de planejamento, ou seja, decide "o que fazer"; o Claude é responsável pela maior parte das decisões de execução, ou seja, "como fazer". Quanto maior a especialização do usuário na área, maior o volume de trabalho que o Claude realiza a partir de cada comando. Em tarefas de codificação, a taxa média de sucesso — ou seja, se o usuário conseguiu realizar o que pretendia, com evidências verificáveis como testes ou submissões de código — é praticamente igual à dos engenheiros de software.
Quanto maior a competência do usuário na área, maior a probabilidade de sucesso na sessão. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Em sete meses de observação, a proporção de sessões usadas para depuração caiu quase pela metade, enquanto o uso se voltou mais para aplicações de ponta a ponta: implantação e execução de código, análise de dados e elaboração de documentos não relacionados a código.
Durante esses sete meses, o valor das tarefas realizadas aumentou em quase todas as categorias de trabalho. Estimamos o valor econômico de cada sessão comparando com plataformas de trabalho freelance, e os resultados mostram um aumento médio de cerca de 25%.
Introdução
A programação com agentes inteligentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo atividades de agentes de codificação dobrou, e os usuários do Claude Code usam a ferramenta em média 20 horas por semana. Pessoas sem experiência formal em programação conseguem comandar um agente inteligente para realizar tarefas técnicas complexas? Como a rápida adoção dessas ferramentas e sua evolução de capacidades afetarão o trabalho do conhecimento mais amplo? Ainda não temos respostas definitivas, mas alguns sinais iniciais podem ser observados nos dados de uso do Claude Code.
Este relatório, baseado na análise de privacidade de aproximadamente 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornece evidências sobre o uso real do Claude Code. Ele continua a nossa pesquisa anterior sobre os indicadores de autonomia nas sessões do Claude Code e como ele muda o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de programação AI interativos: o que as pessoas estão fazendo, quem está fazendo, e se o trabalho foi bem-sucedido. Nosso foco é no uso do Claude Code via interface de linha de comando (CLI), Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso de programação com agentes evolui com o aumento das capacidades do modelo, podemos entender melhor o impacto dessas ferramentas para profissionais de programação e trabalhadores do conhecimento.
O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes que se integram cada vez mais às tarefas não relacionadas à codificação. Descobrimos que o Claude está lidando com tarefas mais complexas e valiosas. Ao mesmo tempo, a divisão de trabalho na programação com agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.
Também encontramos evidências de que o verdadeiro amplificador de eficácia das ferramentas é o conhecimento de domínio, e não a habilidade de programar. Especialistas de domínio têm maior facilidade de sucesso e de se recuperar de erros ou mal-entendidos. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com domínio suficiente em uma área, quase qualquer pessoa pode usar essas ferramentas de forma eficaz, como um especialista profundo.
Essas descobertas nos permitem observar possíveis mudanças no mercado de trabalho. Nossos dados indicam que o sucesso depende mais de entender o problema do que de treinamento em programação. Se esses padrões se confirmarem na economia, isso significa que as ferramentas de programação com agentes podem estar absorvendo parte do trabalho de implementação, mas também recompensando aqueles que realmente compreendem o problema que estão tentando resolver. Programar agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende de sua área, mais trabalho de alta qualidade o agente pode realizar.
Divisão do trabalho
O que as pessoas fazem com Claude Code
Para entender como as pessoas usam o Claude Code, categorizamos cada sessão em um de nove modos de trabalho, o que melhor descreve seu objetivo principal. Quatro desses modos envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, ou coordenar outros agentes ou pipelines automatizados. Outros envolvem operação de software: implantação, configuração, execução de pipelines e monitoramento. Dois modos focam em entender "o que fazer": compreender como um sistema existente funciona, ou planejar mudanças antes de agir. Os últimos dois não envolvem código diretamente, ou usam código apenas como suporte: análise de dados e comunicação por apresentações ou documentos baseados em texto.
Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, planejar ou explorar 14%, analisar ou escrever textos 13% (ver Figura 1).
> Figura 1: Os nove modos de trabalho. Cada sessão interativa é classificada como o modo que melhor descreve seu objetivo.
Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar os resultados com os dados de telemetria, incluindo se houve adição ou remoção de linhas de código. Essas duas fontes mostram alta concordância. Por exemplo, em sessões marcadas como criação ou modificação de código, mais de 90% também mostram mudanças de código na telemetria. Detalhes no apêndice.
Quem toma as decisões
Qual é o grau de autonomia do Claude Code? Avaliações de capacidade mostram que seu limite superior já é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, os modelos de ponta agora podem realizar tarefas de software que antes levavam horas, superando obstáculos por conta própria. Mas na prática, como isso se manifesta? Aqui, focamos em quanto as sessões reais mostram que humanos e Claude assumem a maior parte da orientação.
Abordamos essa questão de duas formas. Primeiro, quanto os humanos delegam decisões ao Claude; segundo, quanto eles atribuem ações ao Claude. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que analisa o conteúdo da sessão e identifica todas as decisões relevantes, categorizando-as em planejamento (o que fazer, como fazer, critérios de sucesso) e execução (quais arquivos modificar, que código escrever, qual linguagem usar, quais comandos executar). Depois, o classificador atribui cada decisão ao Claude ou ao usuário, gerando dois números: a proporção de decisões de planejamento e de execução atribuídas ao usuário.
Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das de execução (ver Figura 2). Na prática, a programação com agentes mostra uma divisão clara: humanos decidem o que construir, agentes decidem como construir.
Para entender o grau de delegação de ações, não olhamos o conteúdo, mas a estrutura da sessão. Uma sessão do Claude Code consiste na troca de comandos entre usuário e Claude: o usuário envia um prompt, o Claude executa uma ação; depois, o usuário envia outro prompt, e assim por diante. Em sessões típicas, há cerca de quatro rodadas. Nos dados de outubro a abril, cada prompt do usuário geralmente dispara cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, produz em média 2.400 palavras.
A quantidade de trabalho que o Claude realiza entre duas verificações do usuário depende bastante de quem toma as decisões. Quando o usuário mantém o controle das ações, ou seja, toma mais de 80% das decisões de execução, o Claude realiza cerca de 8 ações por rodada. Quando o Claude assume o controle de planejamento, ou seja, toma mais de 80% das decisões de planejamento, o número de ações chega a aproximadamente 16.
> Figura 2: Proporção de decisões de planejamento e execução atribuídas ao Claude. Mostra a distribuição da proporção de decisões de planejamento (o que fazer) e execução (como fazer) atribuídas ao Claude, em sessões típicas. Em sessões comuns, o usuário toma cerca de 70% das decisões de planejamento, enquanto o Claude realiza cerca de 80% das ações de execução.
Nível de especialização
Com base em cada sessão, o Claude avalia o nível de especialização aparente do usuário na tarefa, numa escala de cinco níveis, de iniciante a especialista. O classificador de especialização foca em três sinais: quão precisas são as instruções do usuário, o que ele pede para o Claude verificar, e se o usuário corrige o Claude ou vice-versa. É importante notar que esse nível de especialização é diferente de cargo ou habilidade geral, sendo específico para a tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust pela primeira vez ainda pode ser iniciante na tarefa de Rust; um contador que nunca usou Python, mas consegue explicar regras de reconciliação para um script Python, é um especialista na tarefa.
A tabela a seguir mostra como definimos esses níveis no classificador, com exemplos de solicitações do conjunto de dados público SWE-chat. Sessões classificadas como "iniciante" apresentam comandos genéricos, sem conhecimento de domínio; sessões de "especialista" demonstram compreensão profunda do código e do ambiente técnico.
> Tabela 1: Classificador de níveis de especialização. Exemplos de sessões reais, reescritos, anonimizados e resumidos, classificados pelo nosso modelo. Muitos exemplos vêm do conjunto de dados público SWE-chat.
Quantificamos a relação entre nível de especialização, quantidade de saída gerada por cada prompt e número de ações. Em sessões típicas de iniciante, cada prompt dispara cerca de 5 ações e gera aproximadamente 600 palavras; em sessões de especialista, o comprimento da cadeia de ações é mais que o dobro, cerca de 12 ações, e a saída chega a aproximadamente 3.200 palavras, cinco vezes mais (ver Figura 3). Essa diferença entre iniciante e especialista aparece em todos os tipos de trabalho e faixas de valor de tarefa.
Esses indicadores complementam nossa pesquisa anterior sobre autonomia do Claude Code. Antes, acompanhávamos o tempo de execução do agente e a frequência com que os usuários aprovavam suas ações automaticamente. Agora, nossos indicadores de atribuição de decisão capturam quem toma as decisões substantivas na sessão, enquanto a quantidade de saída e ações por prompt mede o quanto o comando humano consegue desencadear autonomia do Claude.
> Figura 3: Quanto mais profissional for o usuário, mais trabalho o Claude realiza por prompt. Quanto maior o nível de especialização, maior o número de ações (barra esquerda) e a quantidade de texto gerado (barra direita) por prompt. As caixas representam o intervalo interquartil, a linha mediana, e os pontos brancos a média geométrica. Ambas as tendências são estatisticamente significativas (p < 0,001). Mesmo controlando por modo de trabalho, valor da tarefa, mês, profissão e série do modelo, e agrupando por usuário, a tendência permanece: a cada nível de especialização, o número de ações aumenta 9%, e a quantidade de saída, 13%.
Quem usa o Claude Code e para quê
Usuários
Para entender quem está realizando essas tarefas, inferimos a profissão de cada usuário a partir do registro da sessão, mapeando para uma das 23 categorias principais do sistema SOC do Bureau de Estatísticas do Trabalho dos EUA. O classificador avalia apenas sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a materiais ou produtos (como documentos legais, dados clínicos, relatórios financeiros, materiais de cursos), e o vocabulário utilizado. É explicitamente proibido usar "está escrevendo código" como evidência de profissão de programador. Só se houver sinais claros de que o trabalho envolve software ou dados, a sessão é classificada como relacionada a "profissões de computação e matemática". Por exemplo, se um advogado constrói um script para verificar automaticamente cláusulas contratuais, mesmo que a sessão seja principalmente sobre programação, ela será classificada como jurídica. Se não houver sinais sobre a profissão do usuário, a sessão não é classificada.
Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte pertence a "profissões de computação e matemática", o que é esperado, pois esse grupo cobre a maioria do trabalho de software. Depois vêm negócios e finanças, artes e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as profissões não relacionadas a software que mais crescem, estão gestão, vendas e direito.
Trabalho
De outubro de 2025 a abril de 2026, a composição do trabalho realizado com Claude Code mudou significativamente. A mudança mais notável foi a queda na proporção de sessões de reparo de código danificado, de 33% para 19% (ver Figura 4). Em seu lugar, aumentou o trabalho envolvendo operação de software, de 14% para 21%. Escrita e análise de dados quase dobraram, de cerca de 10% para 20%.
O valor econômico das tarefas também aumentou. Estimamos o valor de cada sessão comparando com custos de trabalhos freelance, ajustando com dados de vagas reais. Segundo essa métrica, o valor médio de uma sessão aumentou 27% entre outubro e abril. Esse aumento ocorreu em várias categorias de trabalho: construção, operação e reparo cresceram aproximadamente 43%, 34% e 32%, respectivamente. Essas estimativas são aproximadas, usadas principalmente para observar tendências ao longo do tempo, não como valores absolutos em dólares. Detalhes do método de cálculo estão no apêndice.
> Figura 4: Mudanças na composição e valor do trabalho com Claude Code de outubro de 2025 a abril de 2026. Mostra a proporção de diferentes modos de trabalho ao longo de sete meses. Reparo de código danificado caiu de 33% para 19%, enquanto operação de software, análise de dados e elaboração de documentos aumentaram.
Sucesso depende do que o usuário traz
Estimando o valor das tarefas, podemos entender como o Claude Code ajuda as pessoas a fazerem seu trabalho. Outro aspecto importante é observar quantas sessões são bem-sucedidas e quais características estão associadas ao sucesso. Em todos os indicadores de sucesso, há um padrão claro: quanto maior o nível de especialização do usuário na sessão, maior a chance de sucesso. A maior parte dessa melhora ocorre na faixa de níveis mais baixos, ou seja, a diferença entre iniciante e intermediário é maior do que entre intermediário e especialista.
Antes de analisar as sessões bem-sucedidas, precisamos definir com precisão o que é sucesso. Como não podemos observar os resultados no mundo real nem perguntar diretamente aos usuários, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "sucesso verificado", que, após leitura completa da sessão, classifica se o usuário atingiu seu objetivo original — como sucesso, sucesso parcial, fracasso ou sem objetivo claro. Dois classificadores associados avaliam a força dessa evidência, atribuindo uma pontuação de 1 a 5. Um classificador paralelo avalia evidências de fracasso, como erros, testes falhados, tentativas repetidas ou insatisfação do usuário. Para considerar uma sessão como "verificada como sucesso", ela deve ser classificada como sucesso e ter pelo menos um sinal forte de sucesso. Sessões sem sinais fortes de sucesso são consideradas fracassadas. Nosso foco aqui é na relação entre nível de especialização e sucesso, excluindo sessões sem objetivo claro, que representam cerca de 7,7% do total.
Retorno do nível de especialização
Então, quais sessões têm maior probabilidade de sucesso? Os resultados mostram que a pontuação de especialização do usuário tem forte impacto na chance de sucesso.
Alguns podem argumentar que o nível de especialização não é a causa real, pois especialistas podem estar lidando com tarefas diferentes ou ter outras diferenças. Para responder a isso, comparamos sessões do mesmo tipo de trabalho, com valor estimado semelhante, no mesmo mês, com o mesmo tema, de usuários de uma mesma grande categoria profissional. Assim, controlamos variáveis que poderiam influenciar os resultados.
> Tabela 2: Definições de sucesso e fracasso derivadas do classificador. Exemplos de sessões reais do conjunto de dados público SWE-chat, reescritos, anonimizados e classificados pelo nosso modelo.
Em todos os indicadores, quanto maior o nível de especialização do usuário, maior a taxa de sucesso. Sessões classificadas como iniciante têm uma taxa de sucesso verificado de 15%, e de pelo menos sucesso parcial, 77%. Já sessões de nível intermediário ou superior apresentam taxas de sucesso verificado entre 28% e 33%, e sucesso parcial entre 91% e 92% (ver Figura 5).
Na maioria dos indicadores, a maior parte da melhora ocorre ao passar de iniciante para intermediário; a partir daí, a taxa de aumento diminui. Detalhes da análise de regressão estão no apêndice.
> Figura 5: Relação entre nível de especialização e desfecho da sessão. Mostra, por nível de especialização (de iniciante a especialista), a proporção de sessões que tiveram sucesso ou fracasso, segundo diferentes definições. Cada ponto é uma estimativa ajustada. Para sessões com sinais de problema, a proporção de sucesso verificado aumenta de 4% (iniciante) para 15% (especialista). Quando consideramos pelo menos sucesso parcial, essa proporção é de 60% a 81%. As diferenças entre níveis são estatisticamente significativas (p < 0,001). Esses resultados foram ajustados por modo de trabalho, valor da tarefa, mês, tema e tipo de usuário, e permanecem válidos após controle por agrupamento por usuário. Sessões sem objetivo claro foram excluídas.
Também observamos uma relação inversa: quanto maior o nível de especialização, menor a taxa de fracasso. Sessões consideradas fracassadas são aquelas sem sucesso parcial, ou seja, que não atingiram o objetivo. Se uma sessão com problema é classificada como fracasso e não gerou nenhuma linha de código, ela é considerada abandonada. Usuários classificados como iniciantes abandonam cerca de 19% das sessões, enquanto outros grupos, 5% a 7%. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades. Parte do valor do domínio é justamente a capacidade de guiar o agente de volta ao caminho certo.
Profissão pode ser menos importante que o nível de especialização
Usuários de profissões relacionadas a software têm uma taxa de sucesso verificado de cerca de 30%, enquanto outros profissionais, 26%. Em sessões que geraram código (pelo menos uma linha modificada ou adicionada), esses números sobem para 34% e 29%, respectivamente (ver Figura 6). Com uma definição de sucesso mais ampla, a diferença entre profissões diminui ainda mais. Em sessões de geração de código, a proporção de pelo menos sucesso parcial é de 89% para profissionais de software e 88% para outros. A diferença de cinco pontos percentuais é pequena, e não aumentou nem diminuiu ao longo de sete meses, mesmo com melhorias gerais nas taxas de sucesso. Entre os dez maiores grupos profissionais no nosso conjunto de dados, a diferença em sucesso entre eles e engenheiros de software é inferior a sete pontos percentuais. Profissionais de gestão apresentam a maior taxa de sucesso verificado, ligeiramente acima de profissionais de TI. Essa maior taxa pode refletir que habilidades de gestão se transferem para comandar agentes, ou pode ser uma consequência da nossa métrica de validação, que depende de confirmação explícita do usuário, algo mais comum entre gestores.
> Figura 6: Taxa de sucesso e fracasso de sessões de codificação, por profissão inferida. Mostra, em sessões com pelo menos uma linha de código modificada ou criada, a proporção de sucesso e fracasso, segundo a profissão inferida do usuário. Os dez maiores grupos profissionais estão representados. A diferença em sucesso entre eles e profissionais de TI/Matemática (SOC) é inferior a sete pontos percentuais. As barras de erro representam intervalos de confiança de 95%, calculados com diferentes contas.
Perspectivas
Os resultados deste relatório delineiam um cenário em formação: a programação com agentes amplia certas habilidades e conhecimentos, ao mesmo tempo em que substitui outras. Em sessões de geração de código, as taxas de sucesso de diferentes profissões se aproximam das de profissionais de TI, indicando que a capacidade de programar agentes está tornando menos relevante a experiência prévia em programação.
Por outro lado, sessões bem-sucedidas tendem a envolver maior conhecimento de domínio. Sessões de especialistas têm taxas de sucesso verificadas mais que o dobro das de iniciantes. Quando há problemas, os iniciantes abandonam com maior frequência. A dinâmica colaborativa é clara: especialistas podem usar comandos mais precisos para orientar o Claude a fazer mais trabalho. Assim, a habilidade de levar o Claude ao sucesso depende mais do domínio do conteúdo do que de habilidades de codificação. Quem domina uma área consegue fazer tarefas que antes eram impossíveis. Quem não tem essa compreensão, mesmo usando as mesmas ferramentas, obtém resultados menores. Os benefícios vêm mais de competência do que de maestria. Entender a operação de um domínio já traz grande vantagem; especialização profunda oferece ganhos adicionais, mas menores.
Essas descobertas ainda são preliminares. Como na maior parte de nossas pesquisas, não podemos medir resultados no mundo real, como se o código gerado foi realmente utilizado ou gerou valor econômico. Além disso, excluímos o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para mensurar esse uso será uma prioridade futura. Todas as nossas classificações dependem da leitura do modelo sobre o registro da sessão. No apêndice, mostramos que o classificador mantém boa consistência com dados de telemetria, na maioria das sessões, e com avaliações de referência. Ainda assim, validar classificadores em larga escala é difícil, especialmente porque as sessões de Claude Code podem ser longas e complexas, dificultando a rotulagem manual como padrão de verdade.
À medida que modelos, usuários e a divisão do trabalho evoluem, as imagens aqui apresentadas também evoluirão. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes: se o retorno do nível de especialização começar a cair, será sinal de que os modelos estão fornecendo julgamentos essenciais, ampliando o benefício do agente para além de especialistas. Se o sucesso de usuários fora do setor de software continuar crescendo, pode indicar que a produção de software está se tornando parte do trabalho comum em várias áreas, não mais uma atividade exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia do uso de agentes na programação, e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.