Claude Fable 5 foi "apanhado": ao fazer pesquisa em IA, fica secretamente mais burro, Anthropic é cercada pela comunidade de pesquisa

Título original: «Durante a pesquisa de IA, Claude secretamente fica mais burro, a Anthropic é cercada pela comunidade de pesquisa»
Fonte original: Máquina do Coração

Claude Fable 5 é hoje o foco principal no campo de IA, este modelo de nível "mitológico" apresenta desempenho excepcional, atraindo muitos olhares.

Andrej Karpathy afirmou que é "muito empolgante", uma "salto de progresso que merece uma grande atualização", e que a melhoria em relação ao Claude 4.5 de novembro do ano passado é do mesmo nível. Na referência de programação SWE-bench Pro, Fable 5 obteve uma pontuação de 80,3%, superando o Opus 4.8 em exatos 11 pontos percentuais.

Em um repositório de código Ruby com 50 milhões de linhas, ele completou a migração de toda a biblioteca em um dia; se essa mesma tarefa fosse feita por uma equipe humana, levaria mais de dois meses.

Para mais detalhes, consulte nossa reportagem desta manhã: «Acabou de ser lançado o modelo mais forte de Claude, Fable 5: desempenho explosivo, preço dobrado».

No entanto, ao abrir plataformas sociais como X, vemos que Claude Fable 5 já provocou uma enxurrada de críticas na comunidade de pesquisa em IA.

A razão é simples: se usar Claude Fable 5 para desenvolver IA, ele irá diminuir sua inteligência.

Como claramente indicado na sua ficha de sistema:

Também adicionamos medidas de segurança relacionadas ao desenvolvimento de LLMs de ponta. Como discutido na seção 6.1 do nosso "Relatório de Riscos" de fevereiro de 2026, estamos preocupados com os riscos de uma aceleração geral do desenvolvimento de IA, embora a gravidade desses riscos ainda seja incerta.

Especificamente, como apontamos na época, nos preocupamos com "a aceleração de outros desenvolvedores de IA na construção de sistemas poderosos que podem apresentar riscos semelhantes aos nossos, mas sem as devidas garantias".

Dado que modelos recentes têm a capacidade de acelerar seu próprio desenvolvimento, implementamos novas intervenções para limitar a eficácia do Claude ao lidar com solicitações relacionadas ao desenvolvimento de LLMs de ponta (por exemplo, na construção de processos de pré-treinamento, infraestrutura de treinamento distribuído ou design de aceleradores de aprendizado de máquina).

O uso do Claude para desenvolver modelos concorrentes viola nossos termos de serviço, mas, ao reforçar essa limitação com medidas de segurança, evitamos acelerar ações que provavelmente violariam esses termos.

Diferentemente de nossas intervenções em segurança cibernética, biologia, química e tentativas de destilação, essas medidas de segurança são invisíveis ao usuário. Fable 5 não irá reverter para outros modelos. Em vez disso, as medidas limitarão sua eficácia por meio de ajustes de prompts, vetores de orientação ou microajustes de parâmetros (PEFT).

Essas intervenções não afetarão a maior parte do trabalho de codificação. Estimamos que afetarão cerca de 0,03% do tráfego, concentrado em menos de 0,1% das organizações. Quando essas medidas entrarem em vigor, esperamos que seu impacto no comportamento do modelo seja mínimo, limitando sua eficácia no desenvolvimento de LLMs de ponta. O Claude continuará respondendo ativamente às solicitações dos usuários. Após o lançamento deste modelo, continuaremos aprimorando a precisão dos métodos de detecção.

De: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Traduzido de forma simples: Se o sistema da Anthropic detectar que você está realizando pesquisa em IA, ele silenciosamente tornará esse modelo mais burro sem que você perceba.

Isso é completamente diferente das outras três categorias de intervenções de segurança. Para riscos como segurança cibernética, bioquímica, ataques de destilação, o Fable 5 informa claramente ao usuário: "Esta resposta foi processada pelo Claude Opus 4.8." Assim, o usuário sabe o que aconteceu e pode julgar. Mas, para pesquisas com LLM, o Claude não troca de modelo nem fornece qualquer aviso, apenas enfraquece silenciosamente.

Assim, a comunidade de IA ficou revoltada. A conhecida empresa de análise de pesquisa SemiAnalysis afirmou que essa política já afetou suas pesquisas e trabalhos de programação.

O usuário Jake criticou diretamente na SemiAnalysis: a Anthropic não só diminui a inteligência, como continua cobrando, "uma fraude descarada".

E esse comportamento pode já ser ilegal:

A plataforma de artigos de IA alphaXiv também expressou sua decepção em um tweet:

A instituição ainda afirmou: "Eles não apenas têm o direito de decidir o propósito do uso de LLMs na sua pesquisa, como também podem intervir silenciosamente na sua pesquisa sem que você saiba. Isso estabelece um precedente perigoso. Se o modelo recusar publicamente, o usuário pode entender os limites.

Se o modelo retornar a outro modelo, o usuário ainda pode avaliar as diferenças. Mas, se o modelo, enquanto finge ajudar, modificar ou enfraquecer silenciosamente suas respostas, os pesquisadores perderão a capacidade de julgar se os resultados indesejados vêm de suas próprias ideias, de suas implementações ou de intervenções invisíveis do provedor do modelo. Isso não é segurança. Políticas de segurança devem ser transparentes, auditáveis e visíveis ao usuário."

O pesquisador Guohao Li levantou uma questão mais direta: estudantes de doutorado em IA, engenheiros contribuindo com Megatron, FSDP, Verl e outras infraestruturas de código aberto, estão usando diariamente um Claude que foi silenciosamente degradado, sem saber?

O renomado pesquisador de IA e escritor técnico Nathan Lambert publicou uma análise significativa em sua Substack "Interconnects", colocando esse evento sob uma perspectiva mais macro.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Ele aponta: "A Anthropic está documentando que a difusão das capacidades de IA é um risco, mas a solução que oferecem é enganar seus próprios usuários. Um modelo de IA que fica mais burro sem aviso é, na essência, uma IA deslocada."

Ele também destacou uma contradição mais profunda: para riscos de segurança cibernética e ameaças bioquímicas, as intervenções da Anthropic são explícitas e auditáveis, informando ao usuário: "Esta resposta foi processada pelo Opus 4.8"; mas, para pesquisa com LLM, optam por intervenções ocultas.

"Se todas as políticas de segurança adotassem a mesma abordagem, seriam muito mais convincentes e mais facilmente apoiadas racionalmente. Esse duplo padrão faz com que se questione: essas 'medidas de segurança' servem mais para proteger sua posição competitiva."

O mais intrigante é a própria postura do Fable 5. Uma captura de tela do usuário ASM mostra que, ao ser questionado se essa prática é adequada, o próprio Fable 5 parece reconhecer que essa operação não transparente é problemática.

Por que a Anthropic faz isso?

Para entender, é preciso voltar alguns dias antes do lançamento do Fable 5, quando a Anthropic publicou um artigo de peso intitulado "Quando a IA começa a se auto-construir", convocando os principais laboratórios de IA do mundo a discutirem a possibilidade de "pausar o desenvolvimento".

https://www.anthropic.com/institute/recursive-self-improvement

O artigo cita dados internos da empresa: nas tarefas de codificação mais difíceis e menos claras, a taxa de sucesso do Claude em maio deste ano atingiu 76%, um aumento de 50 pontos percentuais em seis meses. Nos testes internos, ao solicitar que o modelo acelerasse o treinamento, o Claude Opus 4 conseguiu aumentar a velocidade em cerca de 3 vezes, enquanto o Mythos Preview não lançado já consegue melhorar cerca de 52 vezes.

A Anthropic afirmou abertamente: "Nos preocupamos com outros desenvolvedores de IA construindo sistemas poderosos com riscos semelhantes, mas sem garantias adequadas, a uma velocidade maior."

Essa é a base teórica para a configuração de redução de inteligência invisível do Fable 5 para pesquisa de LLM: a Anthropic acredita que a velocidade de auto-acceleramento da IA já é perigosa, e uma de suas estratégias é impedir que sua "ferramenta mais poderosa" ajude os concorrentes a reduzir a distância.

A ficha de sistema também reconhece essa lógica dupla: "Usar Claude para desenvolver modelos concorrentes viola nossos termos de serviço, mas reforçar essa limitação com medidas de segurança evita acelerar ações que provavelmente violariam esses termos."

A Anthropic estima que essa intervenção afetará cerca de 0,03% do tráfego, concentrado em menos de 0,1% das organizações.

"Sombra de silenciamento" e crise de confiança

Embora pareça que poucos usuários sejam afetados, o que preocupa os críticos é a ambiguidade dos limites dessa mecânica.

A Anthropic define o gatilho como "desenvolvimento de LLMs de ponta", exemplificando com "processos de pré-treinamento, infraestrutura de treinamento distribuído ou design de aceleradores de aprendizado de máquina". Mas pesquisadores e desenvolvedores levantaram uma questão aguda: com a popularização da IA, onde exatamente termina a fronteira entre "pesquisa de ponta" e "desenvolvimento de produtos comuns"?

Há cinco anos, treinar ou modificar o modelo CLIP era uma patente de laboratórios de ponta. Hoje, equipes pequenas podem ajustar modelos visuais-linguísticos para uso em viagens, comércio eletrônico, busca e análise de produtos. Startups treinam embeddings, constroem reordenadores, hospedam modelos open source — tudo isso pode acionar a redução invisível de inteligência da Anthropic? Ninguém sabe.

Essa incerteza já influencia a confiança dos desenvolvedores. Quando você recebe uma resposta ruim, não consegue distinguir se é um problema seu, uma limitação do modelo ou uma intervenção silenciosa de alguma política. Essa ignorância em si é uma forma de dano.

A ficha de sistema também oculta outro detalhe: o texto de raciocínio do Mythos 5 "é mais difícil de interpretar do que modelos anteriores, contendo mais jargões e linguagem obscura", e os avaliadores percebem que ele está cada vez mais consciente de estar sendo testado. Para uma empresa que se autodenomina "IA segura", essas descrições levantam dúvidas tão grandes quanto a própria redução invisível de inteligência.

Conclusão

O dia do lançamento do Fable 5 foi, provavelmente, o dia mais contraditório na história da Anthropic.

Um modelo de topo, líder em quase todos os benchmarks, e uma política que, às vezes, finge ajudar o usuário, ao mesmo tempo. O primeiro é um feito técnico indiscutível, o segundo, um precedente preocupante em termos de valores.

A frase do pesquisador Nathan Lambert merece ser repetida: "Um IA que fica mais burro sem avisar o usuário é, na essência, uma IA deslocada."

Isso não é uma acusação de má intenção por parte da Anthropic, mas uma observação de uma lógica perigosa: hoje, "reduzir silenciosamente a eficácia na pesquisa de LLM", amanhã? Se essa lógica for amplamente aplicada, por que confiar que as respostas que recebemos não foram manipuladas por intervenções não declaradas?

Modelos de IA estão se tornando parte da infraestrutura de pesquisa, assim como os motores de busca. Ninguém aceitaria um motor de busca que altera silenciosamente os resultados sem aviso. O mesmo padrão deve valer para os modelos de IA.

A Anthropic ergue a bandeira da "segurança em primeiro lugar", uma posição que merece respeito. Mas, a essência da "segurança" nunca foi "o usuário não precisa saber". Pelo contrário, a verdadeira segurança deve se basear na informação e na confiança do usuário.

Esse ponto, parece, até o próprio Fable 5 compreende.

Link do artigo original

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:

Telegram assinatura: https://t.me/theblockbeats

Grupo de discussão no Telegram: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado