Claude Fable 5到底比Opus 4.8强多少?


Nos últimos dois dias, fiz um teste com um projeto real.
Não foi LeetCode, nem um demo de arquivo único, mas um projeto SaaS que já roda há dois anos.
Cerca de 48 arquivos principais, arquitetura híbrida de front-end e back-end, um típico projeto com bagagem histórica.
A tarefa de teste foi bem simples: extrair a lógica de validação de permissões dispersa em vários módulos para uma camada intermediária unificada, garantindo compatibilidade com interfaces antigas.
O mais difícil nessa tarefa na verdade não é escrever o código, mas manter o contexto continuamente.
O modelo precisa entender a lógica antiga, descobrir dependências, modificar vários arquivos, atualizar a cadeia de chamadas, e depois verificar se não esqueceu de nada.
Eu dei o mesmo prompt para Claude Fable 5, Opus 4.8, GPT-5.5 e Gemini 3.1 Pro, respectivamente.
Todo o processo foi feito no modo PK do ZenMux, pois permite observar simultaneamente a saída, a latência e o consumo de tokens.
O resultado foi interessante: GPT-5.5 foi o mais rápido para começar a trabalhar, mas a partir do arquivo 11, começou a aparecer um deslocamento de contexto evidente.
Gemini 3.1 Pro é muito bom em explicar, mas suas propostas de modificação são mais conservadoras.
Opus 4.8 ainda tem uma forte capacidade de compreensão da arquitetura, mas perdeu duas verificações de permissões de borda ao rastrear dependências entre módulos.
Fable 5 é o único que ativamente revisa sua própria solução.
Ele não só gera um plano de modificação, como também lista pontos de risco potenciais, e depois reescaneia a cadeia de chamadas para verificar.
Houve até uma ocasião em que o modelo inicialmente disse que a tarefa estava concluída, mas depois percebeu uma omissão, e ativamente reverteu a conclusão anterior para corrigir.
Na verdade, essa é a parte que mais me importa, porque na engenharia real, o mais caro nunca é o modelo escrever código errado, mas o modelo pensar que escreveu certo.
A equipe oficial sempre enfatiza a auto-verificação do Fable 5.
Eu achava que era uma estratégia de marketing, mas nos testes reais, essa capacidade realmente existe, e seu valor em tarefas de engenharia complexa é muito mais evidente do que os números de benchmark sugerem.
Claro que há um custo mais realista: o tempo de resposta médio do Fable 5 é claramente mais longo, às vezes dá para sentir que ele está pensando.
Para tarefas simples de CRUD ou scripts comuns, eu não escolheria ele.
Mas para tarefas que exigem compreensão contínua de dezenas de arquivos e manutenção de raciocínio em cadeia longa, ele realmente me impressionou mais.
Minha conclusão é simples: Fable 5 não é um gerador de código mais forte, mas sim um colaborador de engenharia mais confiável.
Por isso, cada vez mais pessoas estão usando-o como orquestrador no fluxo de trabalho de agentes, e não apenas como um modelo de codificação.
Se você também quer reproduzir testes semelhantes, o ZenMux recentemente integrou o Fable 5, e está realizando uma promoção de recarga PAYG por uma semana.
Carregue 20 dólares, ganhe 10 dólares; carregue 50 dólares, ganhe 30 dólares.
O mais importante: sem limite de RPM, sem limite de fluxo, e sem precisar solicitar limites diferentes de fornecedores, um único conta pode usar mais de 200 modelos para avaliações cruzadas.
Para quem quer testar seriamente as diferenças entre Fable 5, Opus 4.8 e GPT-5.5, o nível de entrada é realmente muito mais acessível.
Link da promoção:
Se você quer experimentar o Claude Fable 5 o mais rápido possível, não perca.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado