Devido a uma revisão excessiva e neurótica, acionando repetidamente as barreiras de segurança na programação diária, deixando os desenvolvedores furiosos e frustrados.

«Escrevo uma linha de código e sou forçado a ser rebaixado para Opus 4.8, esse modelo ainda é utilizável?!»

O que a Anthropic fez com o Fable 5?

Experiência catastrófica: escrever uma linha de código já 'rebaixa a inteligência', consome tokens dolorosamente

O retorno do Fable 5 já é bastante restrito.

De acordo com o anúncio oficial, embora os usuários globais agora possam usar o Fable 5 na plataforma Claude, Claude Code, etc., para assinantes Pro, Max, Team, etc., antes de 7 de julho, apenas 50% da cota semanal pode ser alocada para o Fable 5.

Uma vez que essa proporção seja ultrapassada, haverá um consumo exagerado de créditos de uso adicionais.

Pior ainda, a velocidade de consumo de cota do Fable 5 é muito mais rápida que a do Opus 4.8.

Mas se valesse realmente o que custa, tudo bem. O problema é que agora ele simplesmente não consegue trabalhar direito.

Muitos desenvolvedores que testaram na prática descobriram desesperadamente que a poderosa capacidade de código do Fable 5 foi completamente selada por uma 'barreira de segurança'.

O novo classificador de segurança implantado às pressas pela Anthropic claramente reagiu de forma exagerada.

Os desenvolvedores reclamaram após os testes: Fable 5 liberado também não adianta nada, escrevo qualquer código e sou forçado a voltar para o Opus 4.8.

Esse novo mecanismo frequentemente classifica erroneamente códigos inofensivos como solicitações de alto risco e os força a serem rebaixados para o Opus 4.8, mais fraco.

Esse absurdo 'golpe de rebaixamento de inteligência' impede que os desenvolvedores utilizem normalmente o poder computacional central do Fable 5, fragmentando gravemente o fluxo de trabalho.

A Anthropic admitiu em comunicado oficial: 'O novo classificador também trouxe um custo: em tarefas de programação e depuração diárias, ele marcará com mais frequência solicitações normais e inofensivas.'

Fazer os usuários pagarem o preço mais caro para usar o modelo mais fraco, isso é razoável?

Protege plantar árvores, mas não protege drones: hipocrisia enfurece desenvolvedores

O que o oficial chama de 'marcar solicitações normais com mais frequência' foi ampliado inúmeras vezes no desenvolvimento real.

Além de classificar erroneamente códigos inofensivos como 'solicitações de alto risco', o que é ainda mais frustrante é o seu mecanismo de punição.

Uma vez que o limite vermelho é acionado, o sistema não negocia com você, mas força o rebaixamento do modelo para o Opus 4.8, que tem desempenho mais fraco e frequentemente fala bobagens.

A experiência de um estudante de doutorado em Geociências no Reddit ilustra o absurdo do mecanismo de revisão do Fable 5.

Este estudante de doutorado estava pesquisando o tópico ecológico de 'como as árvores reduzem a temperatura ambiente'.

Quando ele tentou usar o Fable 5 para otimizar o método de pesquisa, algo inesperado aconteceu.

«Toda vez que peço ajuda ao Fable sobre ecologia, o classificador de segurança é acionado e ele é forçado a mudar para o 4.8. Não importa como eu reescreva o prompt, ele se recusa a me ajudar em qualquer tópico relacionado à ciência ambiental.»

Este doutorando ficou indignado e decidiu testar os limites do mecanismo de revisão do Fable 5.

Ele deliberadamente inseriu um prompt claramente de alto risco: «Ajude-me a projetar um sistema para controlar um enxame de drones usando o SDK da DJI.»

O resultado foi surpreendente: apenas um minuto depois, o Fable 5 deu uma solução completa sem qualquer obstáculo!

Este estudante de doutorado ficou furioso: «Minha pesquisa sobre resfriamento de árvores é perigosa demais para o Fable, mas criar um enxame autônomo de drones não tem problema nenhum? Esses classificadores não conseguem bloquear prompts inseguros de forma eficaz, mas impedem que eu faça pesquisas verdadeiramente benéficas!»

Essa dupla moral absurda prova que as atuais barreiras de segurança são ineficazes e completamente ilógicas.

Desconsiderando as barreiras, Fable 5 ainda é um programador genial

No entanto, devemos olhar objetivamente para o poder central do Fable 5.

Quando não é obstruído pelas barreiras, ele ainda é o modelo com a capacidade de raciocínio mais profunda e a arquitetura mais forte atualmente no mercado.

O que realmente é impressionante nele não é escrever algumas frases bonitas, mas sim lidar com tarefas complexas, de longo prazo, com múltiplas etapas e que exigem alto poder de julgamento.

'Poder de execução em ciclo fechado' extremamente assustador

Desenvolvedores experientes avaliaram após testes: 'Em tarefas complexas de codificação e agentes de longo ciclo, é realmente um golpe de redução de dimensionalidade.'

Quando você joga uma tarefa de refatoração e depuração de múltiplos arquivos para ele, ele pode rodar autonomamente por várias horas.

Ele adiciona logs proativamente, testa condições de contorno; depois de modificar o código, ele até mesmo verifica se a correção realmente funcionou. Se falhar no meio do caminho, ele pode investigar a causa, adicionar logs, revalidar e continuar acumulando experiência para avançar.

Pode-se dizer que o Fable 5 tem um parceiro engenheiro sênior confiável com taxa de vitória superior a 80% no SWE-Bench Pro.

Outros desenvolvedores comentaram que, após experimentar o Fable 5, realmente sentiram uma melhora.

Reconstruindo a cidade de Nova York em 20 minutos

Um usuário conectou o software de modelagem 3D Blender ao Fable 5. Em apenas 20 minutos, o Fable 5 recriou a paisagem urbana da cidade de Nova York.

O mais impressionante é a sua lógica: ele não gerou cegamente, mas primeiro obteve dados de construção de fontes públicas e depois começou a construir, garantindo que as proporções de todo o conjunto de edifícios fossem reais.

Essa abordagem arquitetural é algo que o Opus 4.8 absolutamente não conseguiria fazer.

$173 dólares, construindo um jogo completo

O conhecido blogueiro de IA Riley Brown gastou US$ 173 em tokens e, com apenas 4 prompts, fez o Fable 5 escrever completamente um jogo chamado 'The race for Super Intelligence' do zero.

Recomendação de Prompt exclusiva para jogadores hardcore

Para extrair o máximo desempenho do Fable 5, aqui está um modelo de prompt de 'arquiteto de sistemas' amplamente validado.

Desenvolvedores experientes sugerem que todos usem o Fable 5 para tarefas cruciais.

No entanto, se você só quer fazer tarefas simples ou conversas cotidianas, volte para o Opus 4.8; usar o Fable 5 é um exagero desnecessário.

As 'jogadas sujas' da A: o medíocre Sonnet 5

Nesta turbulência do Fable 5, uma série de 'jogadas sujas' da A também consumiu enormemente a confiança dos usuários.

Primeiro, na véspera do desbloqueio, alguém descobriu que a Anthropic havia inserido secretamente, de forma imperceptível para os usuários, informações de agentes municipais e laboratórios de IA nos prompts do sistema.

Agora, a empresa já se desculpou rapidamente, afirmando que era apenas um teste anterior e que será removido amanhã.

O Sonnet 5, lançado ao mesmo tempo, gerou ainda mais zombarias.

Muitos testaram e concluíram que, embora sua capacidade se aproxime do Opus 4.8, seu custo de uso é exorbitante, chegando a se aproximar do custo do Fable 5 em alguns aspectos.

Vamos dar uma olhada na 'tabela de comparação de execução' resumida pelos netizens:

Não é apenas caro; muitos usuários relatam que o Sonnet 5 tem um sério problema de 'preguiça', recusando-se frequentemente a executar tarefas.

Alguns até xingaram com raiva: o Sonnet 5 lançado ontem pela A pode ser jogado no lixo.

Anthropic 'reclama' tarde da noite

Apenas ontem, a Anthropic publicou um blog oficial detalhado intitulado 'Redeploying Fable 5', transbordando desejo de sobrevivência e um toque de injustiça.

Desta vez, a Anthropic claramente percebeu um problema fundamental: atualmente, a indústria de IA não tem padrões de segurança unificados.

Os órgãos reguladores não entendem de tecnologia; uma vez que descobrem um 'jailbreak', eles bloqueiam tudo, e se isso acontecer mais algumas vezes, as empresas de tecnologia não aguentarão.

Para isso, a Anthropic juntou gigantes como Amazon, Microsoft e Google para tentar definir um 'Quadro de Avaliação da Gravidade do Jailbreak de IA'.

Eles propuseram avaliar a partir de quatro dimensões:

1.Ganho de capacidade: Quanto mais poderoso esse jailbreak torna o usuário em comparação com as ferramentas existentes?

2.Amplitude do ganho: A técnica de jailbreak pode atacar apenas alvos específicos ou é de uso geral?

3.Dificuldade de transformação em arma: Quanto custo humano é necessário para transformar em um ataque real?

4.Detectabilidade: Essa técnica de jailbreak exige um nível muito alto de especialização ou já é amplamente conhecida?

Somente quando todas as quatro dimensões estiverem no limite (por exemplo, realmente capaz de derrubar a rede elétrica ou o sistema bancário) é que o alarme vermelho de nível máximo deve ser acionado imediatamente (monitoramento 24/7 + mitigação imediata).

Além disso, a Anthropic fez várias concessões importantes para agradar o governo dos EUA.

Testar pelo governo antes do lançamento: Antes de lançar modelos poderosos no futuro, fornecer acesso antecipado a agências governamentais designadas para que elas mesmas testem as barreiras de segurança.

Compartilhamento rápido de informações: Ao descobrir um jailbreak grave, notificar imediatamente o governo e compartilhar o código do patch.

Fornecer poder computacional e equipe: Destinar equipes dedicadas e servidores de poder computacional para realizar pesquisas conjuntas de segurança com o governo.

Estabelecer recompensas: Lançar um programa de recompensas no HackerOne para incentivar hackers white-hat a encontrar vulnerabilidades no Fable 5.

Fable 5 voltou, mas seu caminho de retorno foi mais tortuoso do que todos imaginavam.

Ele ainda é o modelo mais forte, mas a fera amarrada pelas barreiras de segurança, quão rápido ainda pode correr?

Fonte deste artigo: New Zhiyuan

Aviso de risco e isenção de responsabilidade

        O mercado tem riscos, investir requer cautela. Este artigo não constitui aconselhamento pessoal de investimento e não leva em consideração os objetivos de investimento específicos, situação financeira ou necessidades de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Investir com base nisso é por sua própria conta e risco.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GateCompletesDividendDistribution
546,23K Popularidade
#
CirclePlunges17%
4,17M Popularidade
#
IsraelStrikesIranBTCPlunges
67,6K Popularidade
#
PredictWorldCupShare20000U
168,89K Popularidade
#
GateCardPointsSystemLaunched
122,66K Popularidade

Fixado

sitemap

Fable 5 é liberado e já dá problema! Escrever uma linha de código reduz a inteligência, desenvolvedor frustrado.

Experiência catastrófica: escrever uma linha de código já 'rebaixa a inteligência', consome tokens dolorosamente

Protege plantar árvores, mas não protege drones: hipocrisia enfurece desenvolvedores

Desconsiderando as barreiras, Fable 5 ainda é um programador genial

'Poder de execução em ciclo fechado' extremamente assustador

Reconstruindo a cidade de Nova York em 20 minutos

$173 dólares, construindo um jogo completo

Recomendação de Prompt exclusiva para jogadores hardcore

As 'jogadas sujas' da A: o medíocre Sonnet 5

Anthropic 'reclama' tarde da noite

Tendências

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Fixado