SemiAnalysis avaliação transversal mostra: GPT-5.5 pela primeira vez em meio ano retorna à vanguarda, Claude responsável pelo planeamento de novos projetos, Codex responsável por reparações de raciocínio intensivo; Claude replica o layout mas com muitos dados falsificados, os dados do Codex são mais precisos. A referência foi alterada para Expert-SWE, GPT-5.5 fica atrás do Opus 4.7 nesta referência, o novo tokenizador do Opus 4.7 aumenta até 35% na quantidade de tokens. DeepSeek V4 acompanha a vanguarda mas não lidera, a escrita em chinês continua superior aos concorrentes. O preço deve ser avaliado pelo custo por tarefa, o preço unitário do GPT-5.5 é o dobro do GPT-5.4, mas o custo real depende dos tokens utilizados. A proporção de entrada e saída do Codex é cerca de 80:1, o Claude Code cerca de 100:1.

BlockBeatNews

2026-04-27 05:22:31

Geração de resumo em curso

De acordo com o monitoramento Beating, a instituição de análise de semicondutores e IA SemiAnalysis publicou uma avaliação comparativa de assistentes de programação, abrangendo GPT-5.5, Opus 4.7 e DeepSeek V4. Conclusão principal: GPT-5.5 é o primeiro modelo de programação a retornar à vanguarda da OpenAI em meio ano, e os engenheiros da SemiAnalysis começaram a alternar entre Codex e Claude Code, que anteriormente quase todos usavam apenas Claude.

O GPT-5.5, baseado na nova pré-treinamento codinome «Spud», é a primeira expansão de escala de pré-treinamento da OpenAI após GPT-4.5.

Nos testes práticos, formou-se uma divisão de tarefas: Claude faz o planejamento de novos projetos e a configuração inicial, enquanto Codex realiza a correção de bugs com raciocínio intensivo. Codex é mais forte na compreensão de estruturas de dados e raciocínio lógico, mas não é bom em inferir intenções vagas do usuário. Para a mesma tarefa de painel, Claude reproduziu automaticamente o layout da página de referência, mas com muitos dados inventados, enquanto Codex pulou o layout, mas os dados eram muito mais precisos.

O artigo revelou detalhes operacionais de um teste de referência: em fevereiro deste ano, a OpenAI publicou um blog pedindo para a indústria adotar o SWE-bench Pro como novo padrão de referência de programação, mas o anúncio do GPT-5.5 usou um novo padrão chamado «Expert-SWE». A razão está nas pequenas letras no final do anúncio: o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro, ficando muito atrás do Mythos, ainda não divulgado publicamente pela Anthropic (77,8%).

No que diz respeito ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, admitindo que o Claude Code apresentou três bugs entre março e abril, que duraram várias semanas e afetaram quase todos os usuários. Antes, vários engenheiros relataram uma queda de desempenho na versão 4.6, mas isso foi tratado como uma percepção subjetiva. Além disso, o novo tokenizador do 4.7 aumenta o uso de tokens em até 35%, e a própria Anthropic reconhece isso, o que equivale a um aumento de preço oculto.

DeepSeek V4 foi avaliado como «seguindo a vanguarda, mas não líder», sendo a alternativa de menor custo para modelos de código fechado. O artigo também afirma que «Claude ainda supera DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade» e comenta que «Claude venceu o modelo chinês usando a língua do adversário».

O artigo propõe um conceito-chave: a avaliação do preço do modelo deve considerar o «custo por tarefa» e não o «custo por token». O GPT-5.5 tem um preço duas vezes maior que o GPT-5.4 (5 dólares de entrada, 30 dólares de saída / milhão de tokens), mas realiza a mesma tarefa com menos tokens, portanto o custo real pode não ser maior. Dados preliminares da SemiAnalysis mostram que a proporção de entrada para saída do Codex é de 80:1, inferior aos 100:1 do Claude Code.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
277.12K Popularidade
#
比特币Breaks79K
11.67M Popularidade
#
IsraelStrikesIranBTCPlunges
34.28K Popularidade
#
CryptoMarketsRiseBroadly
86.72K Popularidade
#
WHCADinnerShootingIncident
14.1K Popularidade

Fixar

SemiAnalysis testado: GPT-5.5 volta à vanguarda, mas a OpenAI silenciosamente esconde uma conquista que foi superada pelo Opus

Tópicos em destaque

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Fixar