Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 12% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Quem é o melhor em usar o Claude Code? A resposta pode não ser um programador
> Título original: Agentic coding and persistent returns to expertise
> Autor original: Anthropoic
> Tradução: Peggy
>
Nota do editor: Este relatório é baseado em aproximadamente 400 mil sessões do Claude Code, discutindo como as ferramentas de programação com IA estão mudando a relação entre humanos e código.
A descoberta central do artigo é: na programação com agentes inteligentes, os humanos decidem principalmente "o que fazer", enquanto o Claude é responsável por "como fazer". Os usuários assumem a maior parte das decisões de planejamento, enquanto o Claude realiza a maior parte da execução. Ou seja, a IA está assumindo etapas de implementação como escrever código, modificar arquivos, executar comandos e depurar, mas a definição de objetivos e a avaliação de resultados ainda dependem das pessoas.
Mais importante ainda, o efeito do uso do Claude Code não depende apenas de o usuário ser programador. O relatório mostra que, em tarefas de geração de código, usuários de profissões não técnicas como direito, finanças, gestão e pesquisa científica já têm taxas de sucesso próximas às de engenheiros de software. O que realmente influencia o resultado é se o usuário compreende o problema que quer resolver.
Isso significa que a programação com IA reduz a barreira de entrada para implementação, mas não a de julgamento. No futuro, pessoas que entendem de negócios, de cenários específicos, capazes de formular claramente suas necessidades e avaliar resultados, podem usar a IA de forma mais eficaz do que aquelas que apenas sabem programar. A IA não substituirá automaticamente o conhecimento de domínio, pelo contrário, ampliará o valor do conhecimento especializado.
A seguir, o texto original:
Descobertas principais
Com base em estudos anteriores, propusemos uma estrutura para estudar a programação de agentes inteligentes interativos. Essa estrutura é fundamentada na análise de privacidade de cerca de 400 mil sessões do Claude Code entre outubro de 2025 e abril de 2026, avaliando a composição das tarefas, a colaboração entre humanos e IA, e as taxas de sucesso.
Em uma sessão típica, o humano é responsável pela maior parte do planejamento, ou seja, decide "o que fazer"; o Claude responde pela maior parte da execução, ou seja, decide "como fazer". Quanto maior a expertise do usuário na área, maior o volume de trabalho que o Claude realiza a partir de cada comando. Em tarefas de codificação, a taxa de sucesso média de diferentes grupos profissionais — ou seja, se eles conseguiram realizar a tarefa desejada, com evidências verificáveis como testes ou submissões de código — é quase igual à dos engenheiros de software.
Quanto maior a competência do usuário na área, maior a chance de a sessão terminar com sucesso. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Durante os sete meses de observação, a proporção de sessões de depuração caiu quase pela metade, enquanto o uso se voltou mais para abordagens de ponta a ponta: implantação e execução de código, análise de dados e elaboração de documentos não relacionados a código.
Nesses sete meses, o valor das tarefas realizadas aumentou em quase todas as categorias de trabalho. Estimamos esse valor comparando com os custos de trabalhos similares no mercado de freelancing, ajustando por dados de vagas reais. Segundo essa métrica, o valor médio de uma sessão aumentou cerca de 25% de outubro a abril.
Introdução
A programação com agentes está crescendo rapidamente. Desde o final de 2025, a proporção de projetos no GitHub envolvendo atividades de agentes de codificação dobrou, e os usuários do Claude Code usam a ferramenta em média 20 horas por semana. Mas será que pessoas sem experiência formal em programação podem comandar um agente para tarefas complexas? Como essa rápida adoção e aprimoramento das capacidades afetará o trabalho do conhecimento mais amplo? Ainda não temos respostas definitivas, mas alguns sinais iniciais podem ser vistos nos dados de uso do Claude Code.
Este relatório é baseado na análise de privacidade de cerca de 235 mil usuários e 400 mil sessões interativas entre outubro de 2025 e abril de 2026, fornecendo evidências sobre o uso real do Claude Code. Ele continua nossas pesquisas anteriores sobre indicadores de autonomia nas sessões do Claude Code e como ele muda o funcionamento interno da Anthropic. Propomos uma estrutura para descrever o uso de assistentes de IA interativos: o que as pessoas fazem, quem faz, e se o trabalho é bem-sucedido. Nosso foco é no uso do Claude Code via interface de linha de comando (CLI), Claude.ai ou aplicativos de desktop. Ao acompanhar como o uso de programação com agentes evolui com o aumento das capacidades do modelo, podemos entender melhor o impacto dessas ferramentas para profissionais de programação e trabalhadores do conhecimento.
O que acontece no Claude Code pode indicar o futuro do trabalho do conhecimento: agentes irão se integrar cada vez mais às tarefas não relacionadas à codificação. Descobrimos que o Claude está lidando com tarefas mais complexas e valiosas. Ao mesmo tempo, a divisão de trabalho na programação com agentes permanece clara: humanos decidem o que construir, agentes decidem como construir.
Também encontramos evidências de que o verdadeiro fator que amplifica o uso eficaz das ferramentas é o conhecimento de domínio, não a habilidade de programar. Especialistas de domínio têm mais sucesso e se recuperam mais facilmente de erros ou mal-entendidos. Contudo, a diferença entre usuários intermediários e especialistas não é grande. Isso sugere que, com conhecimento suficiente em uma área, qualquer pessoa pode usar essas ferramentas de forma quase tão eficaz quanto um especialista profundo.
Essas descobertas nos permitem vislumbrar possíveis mudanças no mercado de trabalho. Nossos dados indicam que o sucesso depende mais de entender o problema do que de treinamento em programação. Se esse padrão se confirmar na economia, significa que, embora as ferramentas de programação com agentes possam absorver alguns trabalhos de implementação, elas também recompensam quem realmente compreende os problemas que tenta resolver. Programar agentes não substitui o conhecimento de domínio; quanto mais o trabalhador entende de sua área, mais trabalho de alta qualidade o agente pode realizar.
Divisão de trabalho
O que as pessoas fazem com Claude Code
Para entender como as pessoas usam o Claude Code, categorizamos cada sessão em um de nove modos de trabalho, aquele que melhor descreve o objetivo principal da sessão. Quatro dessas categorias envolvem diretamente escrever ou manter código: construir algo novo, consertar algo quebrado, testar código, ou coordenar outros agentes ou pipelines automáticos. Outras categorias envolvem operação de software, como implantação, configuração, execução de pipelines e monitoramento. Duas categorias focam em entender "o que fazer": compreender como um sistema existente funciona, ou planejar mudanças antes de agir. As duas últimas categorias não envolvem código diretamente, ou usam código apenas como suporte: análise de dados, ou comunicação por apresentações e documentos baseados em texto.
Cerca de 56% das sessões envolvem escrever código (25%), consertar código (26%) ou testar e coordenar código (5%). Operar software representa 17%, enquanto planejar ou explorar corresponde a 14%, e análise de dados ou elaboração de textos a 13% (ver figura 1).
> Figura 1: Os nove modos de trabalho. Cada sessão interativa é classificada como o modo que melhor descreve seu objetivo.
Primeiro, fazemos o modelo ler o registro da sessão e classificá-la; depois, usamos nossa ferramenta de análise de privacidade para cruzar os resultados com os dados de telemetria automática, incluindo se linhas de código foram adicionadas ou removidas. Os dois métodos mostram alta concordância. Por exemplo, em sessões marcadas pelo classificador como criação ou modificação de código, mais de 90% também mostram mudanças de código na telemetria. Detalhes no apêndice.
Quem toma as decisões
Qual é o grau de autonomia do Claude Code? Avaliações indicam que seu potencial máximo é alto e continua crescendo. Por exemplo, em testes de benchmark como o METR, os modelos mais avançados já podem realizar tarefas de software que antes levavam horas, superando obstáculos por conta própria. Mas na prática, como isso se manifesta? Aqui, analisamos quanto de orientação humana cada sessão realmente exige.
Abordamos a questão de duas formas. Primeiro, quanto os usuários delegam decisões ao Claude; segundo, quanto de ação eles atribuem ao agente. Para entender a divisão de decisões, construímos um classificador de atribuição de decisão, que identifica todas as decisões relevantes na sessão, e as classifica como de planejamento ou execução. Decisões de planejamento incluem o que fazer, qual método usar, o que considerar como conclusão; decisões de execução envolvem quais arquivos modificar, que código escrever, em que linguagem, e quais comandos executar. O classificador então atribui cada decisão ao Claude ou ao usuário, gerando duas métricas: a proporção de decisões de planejamento assumidas pelo usuário, e a de decisões de execução pelo usuário.
Em média, os humanos tomam cerca de 70% das decisões de planejamento, mas apenas 20% das decisões de execução (ver figura 2). Na prática, a programação com agentes revela uma divisão clara do trabalho: humanos decidem o que construir, agentes decidem como construir.
Para entender o grau de delegação de ações na sessão, não analisamos o conteúdo, mas a estrutura da conversa. Uma sessão do Claude Code consiste em trocas entre usuário e Claude: o usuário envia prompts, o Claude executa ações; depois, o usuário envia o próximo prompt, e assim por diante. Em sessões típicas, há cerca de quatro rodadas. Entre outubro e abril, cada prompt enviado pelo usuário geralmente aciona cerca de 10 ações do Claude, às vezes mais de 100. Em cada rodada, o Claude lê arquivos, edita código, executa comandos, e produz em média 2.400 palavras.
A quantidade de trabalho que o Claude realiza entre duas verificações do usuário depende bastante de quem toma as decisões. Quando o usuário mantém o controle das ações, ou seja, toma mais de 80% das decisões de execução, o Claude realiza cerca de 8 ações por rodada. Quando o Claude assume o controle de planejamento, ou seja, toma mais de 80% das decisões de planejamento, o número de ações por rodada chega a aproximadamente 16.
> Figura 2: Proporção de decisões de planejamento e execução atribuídas ao Claude. A figura mostra a distribuição da proporção de decisões de planejamento (o que fazer) e execução (como fazer) atribuídas ao Claude, em sessões típicas. Em sessões comuns, o usuário toma cerca de 70% das decisões de planejamento, enquanto o Claude realiza cerca de 80% das ações de execução.
Nível de especialização
Com base em cada sessão, o Claude avalia o nível de especialização aparente do usuário na tarefa, numa escala de cinco níveis, de iniciante a especialista. O classificador de nível de especialização analisa três sinais: a precisão das instruções do usuário, o que o usuário pede para o Claude verificar, e se o usuário corrige o Claude mais frequentemente ou vice-versa. É importante notar que esse nível de especialização é diferente de cargo ou habilidade geral, sendo específico para cada tarefa. Por exemplo, um engenheiro experiente que pergunta sobre Rust pela primeira vez ainda pode ser iniciante na tarefa de Rust. Por outro lado, um contador que nunca usou Python, mas consegue explicar exatamente quais regras de reconciliação um script Python deve seguir, e identifica erros na contabilidade de fechamento de mês, é considerado especialista na tarefa.
A tabela a seguir mostra como definimos os níveis de especialização no classificador, com exemplos de solicitações do conjunto de dados público SWE-chat. Conversas classificadas como "iniciante" apresentam comandos genéricos, sem conhecimento de domínio; as de "especialista" demonstram compreensão profunda do código e do ambiente técnico.
> Tabela 1: Classificador de níveis de especialização. Exemplos de conversas reais, reescritas, anonimizadas e resumidas, marcadas pelo nosso classificador. Muitos exemplos vêm do conjunto de dados público SWE-chat.
Quantificamos a relação entre nível de especialização, quantidade de saída gerada por cada prompt e atividade do Claude. Em sessões típicas de iniciante, cada prompt aciona cerca de 5 ações do Claude, com aproximadamente 600 palavras produzidas; em sessões de especialista, esse número dobra, chegando a cerca de 12 ações, com aproximadamente 3.200 palavras, ou seja, cinco vezes mais (ver figura 3). Essa diferença entre iniciantes e especialistas aparece em todos os tipos de trabalho e faixas de valor de tarefa.
Esses indicadores complementam nossas pesquisas anteriores sobre autonomia do Claude Code. Antes, acompanhávamos o tempo de operação do agente e a frequência com que os usuários aprovavam suas ações automaticamente. Agora, nossos indicadores de atribuição de decisão capturam quem toma as decisões substantivas na sessão, enquanto a quantidade de saída e ações por prompt mede o quanto cada comando humano pode desencadear atividade autônoma do Claude.
> Figura 3: Quanto mais profissional for o usuário, mais trabalho o Claude realiza por prompt. Quanto maior o nível de especialização, maior o número de ações (barra esquerda) e a quantidade de texto gerado (barra direita) por prompt. As caixas representam o intervalo interquartil, com a mediana marcada; as linhas de bigodes vão do 5º ao 95º percentil. Os pontos brancos indicam a média geométrica. Ambas as tendências são estatisticamente significativas (p < 0,001), e cada passo na escala de especialização apresenta diferenças também estatisticamente significativas. Controlando por modo de trabalho, valor da tarefa, mês, profissão e série do modelo, e agrupando por usuário, essa tendência permanece: a cada nível de especialização, o número de ações aumenta 9%, e a quantidade de texto, 13%.
Quem usa o Claude Code e para quê
Usuários
Para entender quem está realizando essas tarefas, inferimos a profissão de cada usuário a partir do registro da sessão, mapeando para uma das 23 categorias principais do sistema de classificação de profissões do Departamento de Trabalho dos EUA (SOC). O classificador avalia apenas sinais como o contexto carregado no início da sessão, nomes e estruturas de arquivos, referências a materiais ou produtos (como documentos legais, dados clínicos, relatórios financeiros, materiais de cursos), e o vocabulário utilizado. É explicitamente proibido que o classificador interprete "escrever código" como prova de que o usuário seja programador. Só se houver sinais claros de que o trabalho envolve software ou dados, a sessão será classificada na categoria de "profissões de computação e matemática". Por exemplo, se um advogado constrói um script para verificar automaticamente a ausência de cláusulas em contratos, mesmo que a maior parte da sessão seja sobre programação, ela será classificada como trabalho jurídico. Se não houver sinais de profissão, a sessão não será classificada.
Conseguimos inferir a profissão em cerca de 70% das sessões. Entre essas, a maior parte pertence à categoria "profissões de computação e matemática", o que é esperado, pois inclui a maioria dos trabalhos relacionados a software. Depois vêm negócios e finanças, artes e mídia, gestão, ciências da vida, ciências físicas e ciências sociais. Entre as categorias que mais crescem estão gestão, vendas e direito.
Trabalho
De outubro de 2025 a abril de 2026, a composição das tarefas realizadas com Claude Code mudou significativamente. A maior mudança foi na redução de sessões de reparo de código danificado, que caiu de 33% para 19% (ver figura 4). Em seu lugar, aumentaram as sessões relacionadas à operação de código. A proporção de sessões de operação de software subiu de 14% para 21%. Escrita e análise de dados quase dobraram, passando de cerca de 10% para 20%.
O valor econômico das tarefas também aumentou. Estimamos esse valor comparando com os custos de trabalhos similares no mercado de freelancing, usando dados de vagas reais. Segundo essa métrica, o valor médio por sessão cresceu cerca de 27% de outubro a abril. Essa alta ocorreu em várias categorias de trabalho: construção, operação e reparo de código tiveram aumentos de aproximadamente 43%, 34% e 32%, respectivamente. Esses valores são estimativas grosseiras, usadas principalmente para observar tendências ao longo do tempo, não como valores absolutos em dólares. Detalhes na seção de apêndice.
> Figura 4: Mudanças na composição e valor das tarefas com Claude Code de outubro de 2025 a abril de 2026. A figura mostra a proporção de diferentes modos de trabalho ao longo de sete meses. Reparo de código danificado caiu de 33% para 19%, enquanto operação de software, análise de dados e elaboração de documentos aumentaram.
O que importa é o que o usuário traz para o trabalho
Estimando o valor das tarefas, podemos entender melhor como o Claude Code ajuda as pessoas a realizarem seus trabalhos. Outro aspecto importante é observar quantas sessões são bem-sucedidas e quais características estão associadas ao sucesso. Em todos os indicadores de sucesso, há um padrão claro: quanto maior o nível de especialização do usuário, maior a chance de sucesso na sessão. A maior parte dessa diferença ocorre entre iniciantes e intermediários, sendo menor a diferença entre intermediários e especialistas.
Antes de analisar as sessões bem-sucedidas, precisamos definir o que é sucesso. Como não podemos observar os resultados no mundo real nem perguntar diretamente aos usuários se eles conseguiram o que queriam, usamos duas métricas complementares baseadas na análise da sessão. A primeira é "sucesso verificado", que avalia se o usuário completou seu objetivo original após leitura completa da sessão, com categorias como sucesso, sucesso parcial, fracasso ou sem objetivo claro. Dois classificadores associados avaliam a força dessa avaliação, procurando evidências verificáveis de sucesso, como commits, pull requests, testes passando, ou confirmação explícita do usuário. Essa avaliação é pontuada de 1 (sem sinal) a 5 (múltiplos sinais fortes). Um classificador paralelo avalia evidências de falha, como erros, testes falhando, tentativas repetidas ou insatisfação do usuário. Para considerar uma sessão como "verificada como bem-sucedida", ela deve ser avaliada como sucesso e ter pelo menos um sinal forte de sucesso. As sessões sem sinais claros de sucesso, que representam cerca de 7,7% do total, são excluídas dessa análise.
Retorno do nível de especialização
Quais sessões têm maior chance de sucesso? Os resultados mostram que a pontuação de especialização do usuário tem forte impacto na probabilidade de sucesso.
Alguns podem argumentar que o nível de especialização não é a causa real, pois talvez especialistas escolham tarefas diferentes ou tenham outras diferenças. Para responder a isso, comparamos sessões de mesmo tipo de trabalho, mesmo valor estimado, mesmo mês, mesmo tema, de usuários da mesma grande categoria profissional, controlando variáveis. Essa análise mostra que, mesmo assim, o nível de especialização faz diferença significativa na taxa de sucesso.
> Tabela 2: Definições de sucesso e fracasso derivadas do classificador. Exemplos de sessões reais do conjunto de dados público SWE-chat, reescritos, anonimizados e resumidos, marcados pelo nosso classificador.
Em todos os indicadores, quanto maior o nível de especialização do usuário, maior a chance de sucesso na sessão. Sessões classificadas como "iniciante" têm uma taxa de sucesso verificado de 15%, e 77% de pelo menos sucesso parcial. Já sessões de nível intermediário ou superior apresentam taxas de sucesso verificado entre 28% e 33%, e de pelo menos sucesso parcial entre 91% e 92% (ver figura 5).
Na maioria dos indicadores, a maior parte da melhora ocorre entre iniciantes e intermediários; a partir daí, a curva de melhora se desacelera. Detalhes da análise de regressão por trás da figura estão no apêndice.
> Figura 5: Relação entre nível de especialização e resultados da sessão. A figura mostra, de acordo com a classificação de nível de especialização do usuário, a proporção de sessões que tiveram sucesso ou fracasso, considerando diferentes definições de sucesso. Os pontos representam proporções ajustadas, e as linhas de bigode indicam intervalos de confiança de 95%. As sessões foram agrupadas por modo de trabalho, valor da tarefa, mês, tema e profissão, para isolar o efeito do nível de especialização. Detalhes da regressão estão no apêndice. A maioria das sessões sem sinais claros de sucesso foi excluída.
Mesmo em sessões desafiadoras, há uma relação semelhante: quando há sinais verificáveis de falha, a sessão é considerada problemática. Isso inclui erros, testes falhando, tentativas repetidas ou insatisfação do usuário. Entre sessões problemáticas, a taxa de sucesso verificado sobe de 4% para 15% ao passar de iniciante a especialista (ver figura 5). Com critérios mais flexíveis, a taxa de pelo menos sucesso parcial é de 60% para iniciantes, e entre 80% e 81% para intermediários e especialistas.
Também acompanhamos uma relação inversa: maior nível de especialização reduz a frequência de falhas graves. Sessões consideradas fracassadas, ou seja, sem nenhum sucesso parcial, incluem aquelas abandonadas por falta de progresso. Entre usuários considerados iniciantes, 19% das sessões são abandonadas, enquanto entre os demais grupos, essa proporção varia entre 5% e 7%. Ou seja, usuários com menos experiência tendem a desistir mais facilmente quando encontram dificuldades. Parte do valor do conhecimento de domínio está na capacidade de guiar o agente de volta ao caminho certo.
Profissão pode ser menos importante que o nível de especialização
Usuários de profissões relacionadas a software têm uma taxa de sucesso verificado de cerca de 30%, enquanto outros profissionais alcançam 26%. Em sessões que geraram código, ou seja, que pelo menos modificaram ou adicionaram uma linha, esses números sobem para 34% e 29%, respectivamente (ver figura 6). Com critérios mais flexíveis, a diferença entre profissões diminui ainda mais. Entre sessões de geração de código, a proporção de pelo menos sucesso parcial é de 89% para profissionais de software e 88% para os demais. A diferença de cinco pontos percentuais é pequena, e não aumentou nem diminuiu ao longo de sete meses, mesmo com melhorias gerais nas taxas de sucesso. Nos dez maiores grupos profissionais do nosso conjunto de dados, a diferença em sucesso entre eles e engenheiros de software é inferior a sete pontos percentuais. Profissões de gestão apresentam a maior taxa de sucesso verificado, ligeiramente acima da de profissionais de TI. Essa maior taxa pode refletir a transferência de habilidades de gestão para a condução de agentes, ou pode ser uma consequência do método de medição, que depende de confirmação explícita do usuário, mais comum entre gestores.
> Figura 6: Taxa de sucesso na classificação de sessões de codificação por profissão inferida, considerando critérios de sucesso rigorosos e verificáveis. A figura mostra os dez maiores grupos profissionais, comparando suas taxas de sucesso com as de profissionais de TI e matemática (SOC). A diferença entre eles é inferior a sete pontos percentuais, com intervalos de confiança de 95% calculados com base em diferentes contas.
Perspectivas
Os resultados deste relatório delineiam um cenário em formação: a programação com agentes está ampliando certas habilidades e conhecimentos, ao mesmo tempo em que substitui outras. Para sessões de geração de código, as taxas de sucesso de diferentes profissões se aproximam das de profissionais de TI, indicando que a importância de ter formação em programação está diminuindo.
Ao mesmo tempo, sessões bem-sucedidas tendem a envolver mais conhecimento de domínio. Sessões de especialistas têm uma taxa de sucesso verificado mais que o dobro das de iniciantes. Quando há problemas, a proporção de usuários que desistem é muito maior entre iniciantes. A colaboração em si reforça essa visão: especialistas conseguem usar cada comando para guiar o Claude a fazer mais trabalho. Assim, a capacidade de levar o Claude ao sucesso depende mais do domínio do assunto do que de habilidades de codificação. Quem domina uma área consegue fazer tarefas que antes eram impossíveis. Quem não tem esse entendimento, mesmo usando a mesma ferramenta, obtém resultados muito menores. E o maior benefício vem do domínio, não da maestria. Entender operacionalmente uma área já traz grande parte do valor; aprofundar esse conhecimento traz ganhos adicionais, mas menores.
Essas descobertas ainda são preliminares. Como na maior parte de nossas pesquisas, não podemos medir resultados no mundo real, como se o código gerado foi realmente utilizado ou gerou valor econômico. Além disso, este relatório exclui o uso não interativo, que representa uma parte significativa da atividade. Desenvolver uma estrutura para medir esse uso será uma prioridade futura. Todas as classificações aqui apresentadas dependem da leitura do modelo sobre as sessões. No apêndice, mostramos que o classificador mantém uma boa consistência com dados de telemetria, e na maioria das sessões, com avaliações de referência. Mas, em larga escala, validar esses classificadores é difícil; sessões de Claude Code podem ser longas e complexas, dificultando a rotulagem manual como padrão de verdade.
À medida que modelos, usuários e a divisão de trabalho evoluem, as imagens aqui descritas também evoluirão. Esperamos que esses indicadores nos ajudem a acompanhar mudanças importantes. Por exemplo, se o retorno do nível de especialização começar a cair, isso indicará que os modelos estão fornecendo julgamentos que antes dependiam do especialista, e que os benefícios se estenderão a um público mais amplo. Se a proporção de usuários fora da área de software que conseguem completar sessões de codificação continuar a subir, pode significar que a produção de software está se tornando uma atividade comum em várias áreas, não mais exclusiva de uma profissão. Essas mudanças alterarão quem se beneficia da programação com agentes, e em que medida, influenciando as habilidades mais valorizadas no mercado de trabalho.
[Link do artigo original]
Clique para conhecer as vagas na BlockBeats em recrutamento
Participe do grupo oficial da BlockBeats no Telegram:
https://t.me/theblockbeats
Telegram grupo de discussão: https://t.me/BlockBeats_App
Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia