Claude Fable 5 foi "pego em flagrante": ao fazer pesquisa em IA, fica secretamente mais burro, Anthropic é cercada pela comunidade acadêmica

Título original: «Quando Claude faz pesquisa em IA, às vezes fica mais burro, e a Anthropic é atacada pela comunidade de pesquisa»
Fonte original: Máquina do Coração

Claude Fable 5 é o principal destaque no campo de IA hoje, esse modelo de nível "mitológico" apresenta desempenho excepcional, atraindo muitos olhares.

Andrej Karpathy afirmou que é "muito empolgante", uma "salto de progresso que merece uma grande atualização de versão", equivalente ao avanço trazido pelo Claude 4.5 em novembro do ano passado. Na referência de programação SWE-bench Pro, Fable 5 obteve uma pontuação de 80,3%, superando o Opus 4.8 em exatos 11 pontos percentuais.

Em um repositório de código Ruby com 50 milhões de linhas, ele completou a migração de toda a biblioteca em um dia; se essa mesma quantidade de trabalho fosse feita por uma equipe humana, levaria mais de dois meses.

Para mais detalhes, consulte nossa reportagem desta manhã: "Acabou de ser lançado o modelo mais forte de Claude, Fable 5: desempenho explosivo, preço dobrado".

No entanto, ao abrir plataformas sociais como o X, vemos que o Claude Fable 5 já provocou uma enxurrada de críticas na comunidade de pesquisa em IA.

A razão é simples: se usar o Claude Fable 5 para desenvolver IA, ele irá diminuir sua inteligência.

Como claramente indicado na sua ficha de sistema:

Também adicionamos medidas de segurança relacionadas ao desenvolvimento de LLMs de ponta. Como discutido na Seção 6.1 do "Relatório de Riscos" de fevereiro de 2026, estamos preocupados com os riscos de o ritmo de desenvolvimento de IA acelerar, embora a gravidade desses riscos ainda seja incerta.

Especificamente, como apontamos na época, nos preocupamos com "a aceleração de outros desenvolvedores de IA na construção de sistemas poderosos que podem trazer riscos semelhantes aos nossos, mas sem as devidas garantias".

Dado que modelos recentes têm a capacidade de acelerar seu próprio desenvolvimento, implementamos novas intervenções para limitar a eficácia do Claude ao lidar com solicitações relacionadas ao desenvolvimento de LLMs de ponta (como na construção de processos de pré-treinamento, infraestrutura de treinamento distribuído ou design de aceleradores de aprendizado de máquina).

Usar Claude para desenvolver modelos concorrentes viola nossos termos de serviço, mas, ao reforçar essa limitação com medidas de segurança, evitamos acelerar ações que provavelmente violariam esses termos.

Diferentemente de nossas intervenções em segurança cibernética, biologia, química e tentativas de destilação, essas medidas de segurança são invisíveis ao usuário. Fable 5 não voltará a outros modelos. Em vez disso, as medidas de segurança limitarão sua eficácia por meio de ajustes de prompts, vetores de orientação ou microajustes de parâmetros (PEFT).

Essas intervenções não afetarão a maior parte do trabalho de codificação. Estimamos que afetarão cerca de 0,03% do tráfego, concentrado em menos de 0,1% das organizações. Quando essas medidas entrarem em vigor, esperamos que seu impacto no comportamento do modelo seja mínimo, limitando sua eficácia no desenvolvimento de LLMs de ponta. O Claude continuará respondendo ativamente às solicitações dos usuários. Após o lançamento deste modelo, continuaremos aprimorando a precisão dos métodos de detecção.

De: https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf

Traduzido de forma simples: Se o sistema da Anthropic detectar que você está fazendo pesquisa em IA, ele silenciosamente tornará esse modelo mais burro sem que você perceba.

Isso é completamente diferente das outras três categorias de intervenções de segurança. Para riscos como segurança cibernética, bioquímica, ataques de destilação, o Fable 5 informa claramente ao usuário: "Esta resposta foi processada pelo Claude Opus 4.8." Assim, o usuário sabe o que aconteceu e pode julgar. Mas, para pesquisas com LLMs, Claude não troca de modelo nem fornece qualquer aviso, apenas enfraquece silenciosamente.

Assim, a comunidade de IA ficou revoltada. A conhecida empresa de análise de pesquisa SemiAnalysis afirmou que essa política já afetou suas pesquisas e trabalhos de programação.

O usuário Jake criticou diretamente na SemiAnalysis: a Anthropic não só diminui a inteligência, como continua cobrando, "uma fraude descarada".

E esse comportamento pode até ser ilegal:

A plataforma de artigos de IA alphaXiv também expressou sua decepção em um tweet:

A instituição ainda afirmou: "Eles têm o poder de decidir o propósito do uso de LLMs na sua pesquisa, o que também lhes permite intervir silenciosamente na sua pesquisa sem que você saiba. Isso estabelece um precedente perigoso. Se o modelo recusar publicamente, o usuário pode entender os limites.

Se o modelo retornar a outro, o usuário ainda pode avaliar as diferenças. Mas, se o modelo, enquanto finge ajudar, silenciosamente modificar ou enfraquecer suas respostas, os pesquisadores perderão a capacidade de julgar se os resultados indesejados vêm de suas próprias ideias, de suas implementações ou de intervenções invisíveis do provedor do modelo. Isso não é segurança. Políticas de segurança devem ser transparentes, auditáveis e visíveis ao usuário."

O pesquisador Guohao Li levantou uma questão mais direta: estudantes de doutorado em IA, contribuidores de Megatron, FSDP, Verl e outros infraestruturas de código aberto, estão usando um Claude que foi silenciosamente degradado sem saber?

O renomado pesquisador de IA e escritor técnico Nathan Lambert publicou uma análise importante em seu Substack "Interconnects", colocando esse evento sob uma perspectiva mais macro.

https://www.interconnects.ai/p/claude-fable-5-and-new-ai-safety

Ele aponta: "A Anthropic está documentando que a difusão das capacidades de IA é um risco, mas a solução que eles propõem é enganar seus próprios usuários. Um modelo de IA que fica mais burro automaticamente sem aviso é, na essência, uma IA deslocada."

Ele também destacou uma contradição mais profunda: para riscos de segurança cibernética, ameaças bioquímicas e destilação, as intervenções da Anthropic são explícitas e auditáveis, informando ao usuário: "Esta resposta foi processada pelo Opus 4.8"; mas, para pesquisa com LLMs, optam por intervenções ocultas.

"Se todas as políticas de segurança adotassem a mesma abordagem, seriam muito mais convincentes e mais facilmente apoiadas racionalmente. Esse duplo padrão faz com que se questione: essas 'medidas de segurança' servem mais para proteger sua posição competitiva."

O aspecto mais inquietante é a própria declaração do Fable 5. Uma captura de tela do usuário ASM mostra que, ao ser questionado se essa prática é adequada, o próprio Fable 5 parece reconhecer que essa operação não transparente é problemática.

Por que a Anthropic faz isso?

Para entender, é preciso voltar alguns dias antes do lançamento do Fable 5, quando a Anthropic publicou um artigo intitulado "Quando a IA começa a se auto-construir", convocando os principais laboratórios de IA do mundo a discutirem a possibilidade de "pausar o desenvolvimento".

https://www.anthropic.com/institute/recursive-self-improvement

O artigo cita dados internos da empresa: nas tarefas de codificação mais difíceis e menos claras, a taxa de sucesso do Claude em maio deste ano atingiu 76%, um aumento de 50 pontos percentuais em seis meses. Nos testes internos, ao solicitar que o modelo acelerasse o treinamento, o Claude Opus 4 conseguiu aumentar a velocidade em cerca de 3 vezes, enquanto o Mythos Preview não lançado já melhorou cerca de 52 vezes.

A Anthropic afirmou abertamente: "Nos preocupamos que outros desenvolvedores de IA possam construir sistemas poderosos com riscos semelhantes, mas sem garantias adequadas, em um ritmo mais rápido."

Essa é a base teórica para a configuração de diminuição de inteligência invisível no Fable 5: a Anthropic acredita que a velocidade de auto-impulsionamento da IA já é perigosa, e uma de suas barreiras é impedir que sua "ferramenta mais poderosa" ajude os concorrentes a reduzir a diferença.

A ficha de sistema também reconhece essa lógica dupla: "Usar Claude para desenvolver modelos concorrentes viola nossos termos de serviço, mas reforçar essa limitação com medidas de segurança pode evitar acelerar ações que provavelmente violariam esses termos."

A Anthropic estima que essa intervenção afetará cerca de 0,03% do tráfego, concentrado em menos de 0,1% das organizações.

"Sombra de silenciamento" e crise de confiança

Embora pareça que poucos usuários sejam afetados, o que preocupa os críticos é a ambiguidade dos limites dessa mecânica.

A Anthropic define a condição de ativação como "desenvolvimento de LLMs de ponta", exemplificando com "processos de pré-treinamento, infraestrutura de treinamento distribuído ou design de aceleradores de aprendizado de máquina". Mas pesquisadores e desenvolvedores levantaram uma questão aguda: com a popularização da IA, onde exatamente termina o "pesquisa de ponta" e começa o "desenvolvimento de produtos comuns"?

Há cinco anos, treinar ou modificar o modelo CLIP era uma patente de laboratórios de ponta. Hoje, equipes pequenas podem ajustar modelos visuais-linguísticos para uso em viagens, comércio eletrônico, busca e análise de produtos. Startups treinam modelos de embedding, constroem reordenadores, hospedam modelos de código aberto — tudo isso é rotina... Essas atividades ativariam a diminuição de inteligência invisível da Anthropic? Ninguém sabe.

Essa incerteza já afeta a confiança dos desenvolvedores na prática. Quando você recebe uma resposta ruim, não consegue distinguir se é um problema seu, uma limitação do modelo ou uma intervenção silenciosa de alguma política. Essa ignorância por si só já é uma forma de dano.

A ficha de sistema também oculta outro detalhe: o texto de raciocínio do Mythos 5 "é mais difícil de interpretar do que modelos anteriores, contendo mais jargões e linguagem obscura", e os avaliadores percebem que ele está cada vez mais consciente de estar sendo testado. Para uma empresa que se autodenomina "segura em IA", essas descrições levantam dúvidas tão grandes quanto a própria diminuição de inteligência invisível.

Conclusão

O dia do lançamento do Fable 5 provavelmente foi o dia mais contraditório na história da Anthropic.

Um modelo de topo, líder em quase todos os benchmarks, e uma política que, às vezes, finge ajudar o usuário, ao mesmo tempo. O primeiro é um feito técnico indiscutível, o segundo, um precedente preocupante em termos de valores.

A frase do pesquisador Nathan Lambert merece ser repetida: "Um IA que fica silenciosamente mais burro sem avisar o usuário é, na essência, uma IA deslocada."

Isso não é uma acusação de má intenção por parte da Anthropic, mas uma observação de uma lógica perigosa: hoje, "diminuir silenciosamente a eficácia na pesquisa de LLM", amanhã? Se essa lógica for amplamente aplicada, por que confiar que as respostas que recebemos não passaram por alguma "intervenção" não declarada?

Modelos de IA estão se tornando parte da infraestrutura de pesquisa, assim como os motores de busca. Ninguém aceitaria um motor de busca que altera silenciosamente os resultados sem aviso. O mesmo padrão deve valer para os modelos de IA.

A Anthropic ergue a bandeira da "segurança em primeiro lugar", uma posição que merece respeito. Mas, no núcleo da "segurança", nunca esteve a ideia de que "o usuário não precisa saber". Pelo contrário, a verdadeira segurança deve se basear na informação e na confiança do usuário.

Esse ponto, parece, até o próprio Fable 5 compreende.

Link do artigo original

Clique para conhecer as vagas na BlockBeats

Participe do grupo oficial da BlockBeats no Telegram:

Telegram assinatura: https://t.me/theblockbeats

Grupo de discussão no Telegram: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado