Pesquisa da Anthropic: Especialização na área influencia mais o desempenho na geração de código Claude do que a habilidade de programação

Análise da Anthropic de cerca de 400 mil sessões de interação com Claude Code, aproximadamente 235 mil usuários, revela: o fator decisivo para o sucesso ou fracasso na codificação com IA não é saber programar, mas a profundidade de compreensão do domínio do problema a ser resolvido.
(Resumindo: A Anthropic lançou uma pesquisa econômica sobre Claude Code! O potencial de economia com agentes de IA chega a 4 bilhões)
(Complemento: Painel de impacto da IA da Anthropic: insira sua profissão e descubra em segundos quanto do seu trabalho pode ser substituído por IA)

Índice deste artigo

Alternar

  • Como um contabilista pode se tornar um "especialista" aos olhos de Claude
  • Após cometer erros, quem consegue recolocar o agente na direção certa
  • Gestores superam engenheiros de software, as diferenças profissionais quase desaparecem

Na sua mais recente análise, a Anthropic examinou uma amostra de cerca de 235 mil usuários e descobriu que o verdadeiro fator que determina o sucesso ou fracasso na utilização de IA é o quanto a pessoa que dá as instruções entende do problema que está sendo resolvido.

Como um contabilista pode se tornar um "especialista" aos olhos de Claude

A pesquisa da Anthropic abrangeu aproximadamente 400 mil sessões de Claude Code, realizadas entre outubro de 2025 e abril de 2026.

O relatório criou uma escala de cinco níveis de especialização, do iniciante ao especialista. A definição de "proficiência" aqui é diferente do que se imagina. Simplificando: o que importa é o quanto você entende do problema que precisa resolver, não o quanto você sabe programar.

O exemplo dado no relatório é bastante direto: um engenheiro sênior que escreve Rust pela primeira vez é considerado iniciante; por outro lado, um contabilista que nunca usou Python, mas consegue explicar com precisão as regras de conciliação e identificar erros lógicos na liquidação mensal, é um especialista naquele tarefa.

A diferença numérica mostra claramente a gravidade do problema. Uma sessão de iniciante, em média, aciona cerca de 5 ações do Claude e gera aproximadamente 600 palavras; uma sessão de especialista aciona cerca de 12 ações e produz cerca de 3.200 palavras, ou seja, mais de duas vezes as ações e cinco vezes a produção do iniciante.

A análise de regressão da Anthropic indica que, a cada nível de especialização adicional, o número de ações do Claude aumenta cerca de 9%, e a quantidade de output aumenta cerca de 13%. Essa relação permanece mesmo após controlar o tipo de trabalho, o valor da tarefa, o mês, a profissão e a versão do modelo.

Após cometer erros, quem consegue recolocar o agente na direção certa

Os números de sucesso explicam melhor o problema. A Anthropic definiu duas camadas de critérios de sucesso: "detecção de sucesso" (o classificador avalia se a conversa atingiu o padrão após a leitura) e "validação de sucesso" (que requer evidências verificáveis, como testes, commits no git ou confirmação explícita do usuário).

De modo geral, quanto maior a proficiência do usuário, maior a probabilidade de sucesso na sessão, sendo que a maior parte do aumento ocorre na faixa inferior da escala, ou seja, a diferença entre iniciante e intermediário é maior do que entre intermediário e especialista. A Anthropic descobriu que a taxa de validação bem-sucedida em sessões de nível especialista é mais de duas vezes maior do que em sessões de iniciante.

Mais interessante ainda é a "taxa de recuperação após erro". A Anthropic acompanhou sessões problemáticas, ou seja, aquelas que apresentaram sinais de falha na conversa. Nesses casos, a taxa de validação bem-sucedida aumentou de 4% em iniciantes para 15% em especialistas; a proporção de sessões com pelo menos sucesso parcial foi de 60% para iniciantes e de 80-81% para intermediários e especialistas.

A diferença na taxa de abandono também é bastante clara. Quando a sessão encontra dificuldades, há uma probabilidade de 19% de o iniciante simplesmente desistir (considerando falha e zero linhas de código), enquanto os demais níveis apresentam apenas 5-7%. A interpretação da Anthropic é que uma das vantagens de ter domínio do domínio é justamente a capacidade de redirecionar o agente quando ele sai do caminho.

Essa descoberta leva a uma conclusão contraintuitiva: "Entender o problema" é mais importante do que "dominar a ferramenta". Porque, ao entender o problema, você consegue identificar onde o erro está quando o Claude fornece uma resposta incorreta; consegue definir com precisão as condições de fronteira; consegue corrigir imediatamente quando o agente toma decisões estranhas.

Gestão supera engenheiros de software, as diferenças profissionais quase desaparecem

Os dados da Anthropic desafiam uma expectativa: a formação profissional não é tão importante quanto se imagina.

Profissões relacionadas a software apresentam uma taxa de sucesso de aproximadamente 30%, enquanto outras profissões ficam em torno de 26%. Quando se considera apenas sessões que geraram código efetivo, essa diferença aumenta para 34% versus 29%, mas ao ampliar para sessões que tiveram pelo menos sucesso parcial, os números se igualam: 89% versus 88%.

Mais interessante ainda é que, entre as dez principais profissões, todas estão dentro de uma margem de sete pontos percentuais em relação à taxa de sucesso de engenheiros de software. Gestores, inclusive, apresentam uma taxa de sucesso ligeiramente superior à dos engenheiros. A hipótese da Anthropic é que gestores, por sua prática de delegar tarefas e definir requisitos, tenham transferido essa habilidade para comandar o agente.

O modo de trabalho também evoluiu rapidamente em sete meses. A proporção de sessões de correção de bugs caiu de 33% para 19%, quase pela metade; operações de software (implantação, configuração, execução de pipelines) subiram de 14% para 21%; escrita e análise de dados quase dobraram, de 10% para 20%.

Em outras palavras, os usuários estão usando o Claude Code para uma variedade cada vez maior de tarefas relacionadas à programação, além de simplesmente escrever código.

O valor econômico das tarefas também aumentou. A Anthropic estima, com base em valores de mercado de freelancers, que o valor médio por sessão subiu cerca de 27% em sete meses; tarefas de construção aumentaram cerca de 43%, operações cerca de 34%, e reparos cerca de 32%.

No final do relatório, a Anthropic propõe um conceito de estrutura que vale a pena lembrar: os benefícios vêm de "competência, não de maestria", ou seja, uma compreensão suficiente, sem necessidade de domínio profundo.

Ter uma compreensão básica a intermediária de um domínio já traz a maior parte dos benefícios; ao avançar de intermediário para especialista, a taxa de sucesso tende a se estabilizar.

À medida que as ferramentas de IA continuam a se expandir, elas amplificam não as habilidades de programação, mas a profundidade da sua compreensão do problema. Quem não entende o que precisa resolver, mesmo com modelos mais avançados, só está mais rápido a se perder.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado