SemiAnalysis testado: GPT-5.5 volta à vanguarda, mas a OpenAI silenciosamente esconde uma conquista que foi superada pelo Opus

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a instituição de análise de semicondutores e IA SemiAnalysis publicou uma avaliação comparativa de assistentes de programação, abrangendo GPT-5.5, Opus 4.7 e DeepSeek V4. Conclusão principal: GPT-5.5 é o primeiro modelo de programação a retornar à vanguarda da OpenAI em meio ano, e os engenheiros da SemiAnalysis começaram a alternar entre Codex e Claude Code, que anteriormente quase todos usavam apenas Claude.

O GPT-5.5, baseado na nova pré-treinamento codinome «Spud», é a primeira expansão de escala de pré-treinamento da OpenAI após GPT-4.5.

Nos testes práticos, formou-se uma divisão de tarefas: Claude faz o planejamento de novos projetos e a configuração inicial, enquanto Codex realiza a correção de bugs com raciocínio intensivo. Codex é mais forte na compreensão de estruturas de dados e raciocínio lógico, mas não é bom em inferir intenções vagas do usuário. Para a mesma tarefa de painel, Claude reproduziu automaticamente o layout da página de referência, mas com muitos dados inventados, enquanto Codex pulou o layout, mas os dados eram muito mais precisos.

O artigo revelou detalhes operacionais de um teste de referência: em fevereiro deste ano, a OpenAI publicou um blog pedindo para a indústria adotar o SWE-bench Pro como novo padrão de referência de programação, mas o anúncio do GPT-5.5 usou um novo padrão chamado «Expert-SWE». A razão está nas pequenas letras no final do anúncio: o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro, ficando muito atrás do Mythos, ainda não divulgado publicamente pela Anthropic (77,8%).

No que diz respeito ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, admitindo que o Claude Code apresentou três bugs entre março e abril, que duraram várias semanas e afetaram quase todos os usuários. Antes, vários engenheiros relataram uma queda de desempenho na versão 4.6, mas isso foi tratado como uma percepção subjetiva. Além disso, o novo tokenizador do 4.7 aumenta o uso de tokens em até 35%, e a própria Anthropic reconhece isso, o que equivale a um aumento de preço oculto.

DeepSeek V4 foi avaliado como «seguindo a vanguarda, mas não líder», sendo a alternativa de menor custo para modelos de código fechado. O artigo também afirma que «Claude ainda supera DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade» e comenta que «Claude venceu o modelo chinês usando a língua do adversário».

O artigo propõe um conceito-chave: a avaliação do preço do modelo deve considerar o «custo por tarefa» e não o «custo por token». O GPT-5.5 tem um preço duas vezes maior que o GPT-5.4 (5 dólares de entrada, 30 dólares de saída / milhão de tokens), mas realiza a mesma tarefa com menos tokens, portanto o custo real pode não ser maior. Dados preliminares da SemiAnalysis mostram que a proporção de entrada para saída do Codex é de 80:1, inferior aos 100:1 do Claude Code.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar