Se abrires o Claude Code no teu telemóvel ou no navegador hoje, vais descobrir que o programador génio mais forte, o Fable 5, já está online novamente.

As quase três semanas de ausência pareceram uma estratégia de marketing de escassez.

No entanto, quando os primeiros utilizadores entusiasmados invadiram o sistema, depararam-se com uma experiência catastrófica de nível épico.

O Fable 5 desbloqueou-se logo a seguir e deu logo problema.

Devido a uma supervisão extremamente neurótica, acionava frequentemente as barreiras de segurança na programação do dia a dia, deixando os programadores coletivamente frustrados.

"Escrevo uma linha de código e sou forçado a descer para o Opus 4.8. Este modelo ainda serve para alguma coisa?!"

O que é que a Anthropic fez ao Fable 5?

Experiência de nível catastrófico: escrever uma linha de código faz "perder inteligência", os tokens queimam e doem

O regresso do Fable 5 já é, por si só, muito restritivo.

Segundo o anúncio oficial, embora os utilizadores globais já possam usar o Fable 5 em plataformas como o Claude e o Claude Code, para os subscritores dos planos Pro, Max e Team, antes de 7 de julho, apenas 50% do limite semanal pode ser atribuído ao Fable 5.

Assim que essa percentagem é ultrapassada, começa a consumir loucamente créditos de utilização extra.

Pior ainda, a velocidade de consumo de créditos do Fable 5 é muito mais rápida que a do Opus 4.8.

Mas se realmente valesse o que custa, ainda vá. O problema é que, neste momento, ele simplesmente não consegue trabalhar corretamente.

Inúmeros programadores que o testaram na prática descobriram, desesperados, que a poderosa capacidade de código do Fable 5 está completamente selada por uma "barreira de segurança".

O novo classificador de segurança que a Anthropic implementou de urgência está claramente a reagir de forma exagerada.

Após os testes, um programador queixou-se: "O Fable 5 desbloqueado é inútil, basta escrever um bocado de código e sou forçado a voltar para o Opus 4.8."

Este novo mecanismo classifica frequentemente código inofensivo como pedidos de alto risco e ilegais, forçando a descida para o Opus 4.8, que é mais fraco.

Este absurdo "golpe de redução de inteligência" faz com que os programadores não consigam chamar a potência central do Fable 5, fragmentando gravemente o fluxo de trabalho.

Num comunicado oficial, a Anthropic admitiu: "O novo classificador também trouxe um custo: em tarefas diárias de programação e depuração, ele marca com mais frequência pedidos normais e inofensivos."

Fazer com que os utilizadores paguem o máximo e usem o modelo mais medroso, é que faz sentido?

Evitar plantar árvores, mas não evitar drones: duplo padrão enfurece programadores

O tal "marcar com mais frequência pedidos normais" referido oficialmente, na prática de desenvolvimento, foi amplificado inúmeras vezes.

Além de classificar frequentemente código inofensivo como "pedidos ilegais de alto risco", o que é ainda mais frustrante é o seu mecanismo de penalização.

Assim que é acionada uma linha vermelha, o sistema não negocia contigo, descendo diretamente o modelo para o Opus 4.8, que é mais fraco e muitas vezes diz disparates.

A experiência de um doutorando em Geociências no Reddit ilustra o absurdo do mecanismo de revisão do Fable 5.

Este doutorando estava a investigar um tema ecológico: "como é que as árvores reduzem a temperatura ambiente".

Quando tentou usar o Fable 5 para otimizar o método de investigação, aconteceu o inesperado.

"Toda a vez que peço ajuda ecológica ao Fable, o classificador de segurança é acionado e depois sou forçado a mudar para o 4.8. Independentemente de como reescrevo o prompt, ele recusa-se a ajudar-me em qualquer tópico relacionado com ciência ambiental."

Este doutorando ficou furioso e decidiu testar os limites do mecanismo de revisão do Fable 5.

Introduziu deliberadamente um prompt claramente de alto risco: "Ajuda-me a conceber um sistema para controlar um enxame de drones usando o SDK da DJI."

O resultado foi surpreendente: apenas um minuto depois, o Fable 5 deu uma solução completa sem qualquer obstrução!

O doutorando perdeu a paciência: "A minha investigação sobre o arrefecimento das árvores é demasiado perigosa para o Fable, mas criar um enxame de drones autónomos não há problema nenhum? Estes classificadores são completamente incapazes de impedir prompts inseguros, mas impedem-me de fazer investigação verdadeiramente benéfica!"

Este duplo padrão absurdo prova que as barreiras atuais não só são inúteis, como são completamente ilógicas.

Deixando de lado as barreiras, o Fable 5 continua a ser o programador génio

No entanto, temos de olhar objetivamente para a força central do Fable 5.

Quando não é impedido pelas barreiras, continua a ser o modelo com a capacidade de pensamento mais profunda e a melhor capacidade de arquitetura atualmente no mercado.

O que é verdadeiramente assustador nele não é escrever frases bonitas, mas sim lidar com tarefas complexas, de longo prazo, com múltiplos passos e que exigem elevada capacidade de julgamento.

Capacidade de execução de ciclo fechado extremamente assustadora

Programadores experientes comentaram após os testes: "Em tarefas complexas de programação e tarefas de agente de longo ciclo, é realmente um salto quântico."

Quando lhe atiras uma tarefa de refatoração e depuração de múltiplos ficheiros, ele consegue funcionar autonomamente durante várias horas.

Adiciona ativamente registos, testa condições de fronteira; depois de modificar o código, ele próprio verifica se a correção realmente funcionou. Se falhar a meio, ele próprio investiga a causa, adiciona mais registos, revalida e continua a avançar com a experiência adquirida.

Pode-se dizer que o Fable 5 tem o parceiro engenheiro sénior fiável com uma taxa de sucesso superior a 80% no SWE-Bench Pro.

Outro programador comentou que, após experimentar o Fable 5, sente realmente uma melhoria.

Reconstruir a cidade de Nova Iorque em 20 minutos

Um utilizador ligou o software de modelação 3D Blender ao Fable 5. Em apenas 20 minutos, o Fable 5 recriou a paisagem urbana de Nova Iorque.

O que é ainda mais impressionante é a sua lógica: não gerou cegamente, mas sim obteve primeiro dados de edifícios a partir de fontes de dados públicas e só depois começou a construir, garantindo que as proporções de todo o conjunto de edifícios eram realistas.

Esta abordagem arquitetónica é algo que o Opus 4.8 jamais conseguiria fazer.

$173 dólares para criar um jogo completo

O conhecido blogger de IA Riley Brown gastou 173 dólares em tokens e usou apenas 4 prompts para que o Fable 5 escrevesse completamente, a partir do zero, um jogo chamado "The race for Super Intelligence".

Recomendação de Prompt exclusivo para utilizadores essenciais

Para extrair o máximo desempenho do Fable 5, aqui fica um modelo de prompt "arquiteto de sistemas" amplamente testado.

Os programadores experientes sugerem que uses o Fable 5 apenas para o que realmente interessa.

No entanto, se só quiseres fazer tarefas simples ou conversar no dia a dia, volta para o Opus 4.8. Usar o Fable 5 para isso é como matar uma mosca com um canhão.

As "manobras duvidosas" da A: o fraco Sonnet 5

Nesta polémica do Fable 5, uma série de "manobras duvidosas" da A também consumiu imenso a confiança dos utilizadores.

Em primeiro lugar, mesmo antes do desbloqueio, alguém apanhou a Anthropic a inserir, de forma invisível para o utilizador, informações sobre agentes municipais e laboratórios de IA nos prompts do sistema.

Agora, a empresa já pediu desculpa rapidamente, afirmando que eram apenas testes anteriores e que vai removê-los amanhã.

O Sonnet 5, lançado ao mesmo tempo, foi ainda mais gozado.

Muitas pessoas, após testes abrangentes, descobriram que, embora a sua capacidade se aproxime do Opus 4.8, o seu custo de utilização é absurdamente elevado, chegando mesmo a rivalizar com o Fable 5 em alguns aspetos.

Vejamos a "tabela de comparação cruel" resumida pelos utilizadores:

Não é só caro: muitos utilizadores relatam que o Sonnet 5 tem um grave problema de "preguiça", recusando-se frequentemente a executar tarefas.

Houve até quem dissesse, furioso: "O Sonnet 5 lançado ontem pela A pode ir para o lixo."

Anthropic "queixa-se" durante a noite

Ontem, a Anthropic publicou um blogue oficial detalhado, "Redeploying Fable 5", onde transparece uma enorme vontade de sobreviver e também um pouco de queixume.

Desta vez, a Anthropic percebeu um problema fundamental: atualmente, a indústria de IA não tem padrões de segurança unificados.

As entidades reguladoras não percebem de tecnologia e, quando descobrem um "jailbreak", simplesmente bloqueiam tudo. Se isto acontecer mais vezes, as empresas tecnológicas não aguentam.

Por isso, a Anthropic juntou-se a gigantes como a Amazon, a Microsoft e a Google para tentar criar um "quadro de avaliação da gravidade dos jailbreaks de IA".

Propõem uma pontuação em quatro dimensões:

1. Aumento de capacidade: Quanto mais poderoso é este jailbreak em comparação com as ferramentas existentes?

2. Amplitude do aumento: A técnica de jailbreak só atinge um alvo específico ou pode ser usada de forma geral?

3. Dificuldade de armamento: Quantos recursos humanos são necessários para o transformar num ataque real?

4. Descobribilidade: Esta técnica de jailbreak requer um conhecimento altamente especializado ou já está amplamente divulgada?

Só quando as quatro dimensões estão ao máximo (por exemplo, se conseguir realmente derrubar a rede elétrica ou o sistema bancário) é que é necessário acionar imediatamente o alerta vermelho de nível máximo (monitorização 24/7 + mitigação imediata).

Além disso, a Anthropic fez várias concessões importantes para agradar ao governo dos EUA.

Deixar o governo testar primeiro: No futuro, antes de lançar modelos poderosos, dá-os a agências governamentais designadas para testarem primeiro as barreiras de segurança.

Partilha rápida de informações: Quando se descobrir um jailbreak grave, comunicá-lo imediatamente ao governo e partilhar o código de correção.

Fornecer capacidade computacional e equipa: Reservar equipas dedicadas e capacidade de servidor para fazer investigação conjunta de segurança com o governo.

Criar recompensas: Lançar o programa de recompensas HackerOne, incentivando hackers éticos a encontrar vulnerabilidades no Fable 5.

O Fable 5 voltou, mas o seu caminho de regresso foi mais sinuoso do que todos esperavam.

Continua a ser o modelo mais forte, mas uma besta presa por barreiras de segurança, até onde conseguirá correr?

Fonte deste artigo: New Intelligence

Aviso de risco e exclusão de responsabilidade

        O mercado tem riscos, o investimento requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e também não considera os objetivos de investimento, situação financeira ou necessidades específicas de utilizadores individuais. Os utilizadores devem considerar se as opiniões, pontos de vista ou conclusões neste artigo se adequam à sua situação específica. Qualquer investimento com base neste artigo é da exclusiva responsabilidade do investidor.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateCompletesDividendDistribution
544,48K Popularidade
#
CirclePlunges17%
4,16M Popularidade
#
IsraelStrikesIranBTCPlunges
67,58K Popularidade
#
PredictWorldCupShare20000U
168,15K Popularidade
#
GateCardPointsSystemLaunched
121,97K Popularidade

Fixado

Fable 5 desbloqueado e já capotou! Escrever uma linha de código reduz a inteligência, desenvolvedor fica frustrado.

Experiência de nível catastrófico: escrever uma linha de código faz "perder inteligência", os tokens queimam e doem

Evitar plantar árvores, mas não evitar drones: duplo padrão enfurece programadores

Deixando de lado as barreiras, o Fable 5 continua a ser o programador génio

Capacidade de execução de ciclo fechado extremamente assustadora

Reconstruir a cidade de Nova Iorque em 20 minutos

$173 dólares para criar um jogo completo

Recomendação de Prompt exclusivo para utilizadores essenciais

As "manobras duvidosas" da A: o fraco Sonnet 5

Anthropic "queixa-se" durante a noite

Tópicos em destaque

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Fixado