Entenda o GPT-5.5 em um artigo: A partir de hoje, a OpenAI "não vende" mais Tokens

Autor: Li Hailun, Tencent Technology

No horário local de 23 de abril, a OpenAI lançou oficialmente o novo modelo de ponta GPT-5.5, posicionando-o como “uma nova camada inteligente voltada para trabalhos reais”, sendo também um passo importante rumo a uma nova forma de trabalhar com computadores.

O foco principal desta divulgação concentrou-se em dois pontos:

  • Primeiro, uma inovação na eficiência: na mesma latência, o modelo ficou maior, mas sem perder velocidade. A janela de contexto do GPT-5.5 atingiu 100 mil tokens, mas não se trata de uma simples atualização de capacidades do GPT-5.4, e sim de uma inteligência mais avançada com a mesma latência, otimizando a eficiência.

  • Segundo, durante o treinamento do GPT-5.5, ele participou da otimização de sua infraestrutura de raciocínio. Em resumo, a IA aprendeu pela primeira vez a ajustar seus próprios parâmetros.

Nos testes de fluxo de trabalho de comandos complexos Terminal-Bench 2.0, o GPT-5.5 obteve uma pontuação de 82,7%, superando em mais de 13 pontos percentuais o Claude Opus 4.7, que marcou 69,4%; no teste de operação autônoma de computadores reais OSWorld-Verified, a taxa de sucesso foi de 78,7%, superando a linha de base humana; e na avaliação de tarefas de conhecimento profissional em 44 áreas diferentes (GDPval), 84,9% das tarefas atingiram ou superaram o nível de especialistas do setor.

No entanto, o preço do GPT-5.5 também aumentou significativamente.

A precificação da API é de 5 dólares por milhão de tokens de entrada e 30 dólares por milhão de tokens de saída, o dobro do GPT-5.4 (2,50 dólares por milhão de tokens de entrada, 15 dólares de saída), mas a OpenAI enfatiza que o GPT-5.5 reduz drasticamente a quantidade de tokens necessários para realizar tarefas iguais, podendo assim não haver aumento de custo global. A API GPT-5.5 Pro custa 30 dólares por milhão de tokens de entrada e 180 dólares por milhão de tokens de saída. Processamentos em lote e preços flexíveis oferecem desconto de 50%, com prioridade de processamento a 2,5 vezes o preço padrão.

No ChatGPT, o GPT-5.5 foi lançado na forma de “GPT-5.5 Thinking”, substituindo gradualmente versões anteriores.

Uma novidade de design é que: antes de começar a pensar, o modelo fornece uma visão geral do raciocínio, permitindo que o usuário interaja a qualquer momento durante a execução, ajustando o rumo.

Se fosse resumir o significado do GPT-5.5 em uma frase: modelos anteriores eram coleções de capacidades, o GPT-5.5 se aproxima de um sistema de trabalho que planeja, verifica e avança continuamente.

84,9% das tarefas, ao nível de profissionais

Imagem: Comparativo entre GPT-5.5 e concorrentes nos testes Terminal-Bench 2.0, GDPval, OSWorld-Verified e outros benchmarks principais

Primeiro, vamos avaliar o desempenho do modelo em cenários profissionais reais. A OpenAI utilizou um benchmark chamado “GDPval”, que exige que o modelo complete um conjunto completo de tarefas profissionais. O teste cobre 44 cenários profissionais, incluindo modelagem financeira, análise jurídica, relatórios de ciência de dados, planejamento operacional, entre outros.

Os resultados mostram: o GPT-5.5 atingiu ou superou o nível de profissionais do setor em 84,9% das tarefas. Como comparação, o GPT-5.4 marcou 83,0%, o Claude Opus 4.7 atingiu 80,3%, e o Gemini 3.1 Pro ficou com apenas 67,3%.

Essa diferença não se limita às pontuações gerais. Em tarefas de modelagem de planilhas, o GPT-5.5 obteve 88,5% em testes internos; em modelagens de nível de banco de investimento, também lidera frente à geração anterior. Os primeiros usuários relataram respostas do GPT-5.5 Pro com melhorias claras em abrangência, estrutura e utilidade, especialmente nos setores de negócios, jurídico, educação e ciência de dados.

Números podem embotar, mas a OpenAI decidiu mostrar sua própria sala de trabalho.

A OpenAI afirma que mais de 85% dos funcionários usam Codex semanalmente, em departamentos de finanças, comunicação, marketing, produto e ciência de dados. A equipe de comunicação utilizou-o para analisar dados de convites para palestras ao longo de seis meses, criando um fluxo de classificação automatizado; a equipe financeira revisou 24.771 formulários K-1, totalizando 71.637 páginas, concluindo duas semanas antes do previsto; a equipe de expansão de mercado automatizou relatórios semanais, economizando de 5 a 10 horas por pessoa por semana.

Isso não é mais uma demonstração de laboratório, mas uma rotina de trabalho real.

O mais forte modelo de programação autônoma

A OpenAI afirma que, atualmente, o GPT-5.5 é seu modelo mais avançado de programação autônoma.

No Terminal-Bench 2.0 (teste de fluxo de trabalho complexo de comandos, que exige planejamento, iteração e coordenação de ferramentas), o GPT-5.5 obteve 82,7%, contra 75,1% do GPT-5.4, uma melhora de quase 8 pontos percentuais, além de consumir menos tokens. No SWE-Bench Pro (avalia a capacidade de resolver problemas reais do GitHub de forma pontual), o GPT-5.5 marcou 58,6%. Em avaliações internas de Expert-SWE (tarefas de programação de longo prazo, com tempo médio de cerca de 20 horas por tarefa), o GPT-5.5 também superou o GPT-5.4.

Imagem: Gráfico de dispersão do Terminal-Bench 2.0 e Expert-SWE

Sob o comando do Codex, o GPT-5.5 já consegue partir de uma simples instrução e completar todo o ciclo de desenvolvimento, desde geração de código, testes de funcionalidades até depuração visual.

Demonstrações oficiais da OpenAI mostram aplicações de tarefas espaciais baseadas em dados reais de órbita da NASA, suportando controle 3D interativo e simulação de mecânica orbital com precisão física real; detectores de terremotos integrados a fontes de dados em tempo real, com visualização, demonstrando que o modelo já possui capacidade de chamar APIs externas, processar dados dinâmicos e renderizar em tempo real.

Quanto ao feedback de uso, o CEO e fundador da Every, Dan Shipper, contou uma experiência: ele enfrentou um bug após o lançamento, tentou resolvê-lo por dias sem sucesso, e acabou pedindo ao engenheiro mais experiente da equipe para reescrever parte do sistema. Depois do GPT-5.5, ele fez um experimento — colocou o modelo na mesma condição do bug não resolvido e viu se ele mesmo poderia chegar a uma solução semelhante à do engenheiro. O GPT-5.4 não conseguiu, o GPT-5.5 conseguiu. Ele avaliou: “Este é o primeiro modelo de programação com uma clareza conceitual real que já usei.”

A avaliação de um engenheiro da Nvidia foi mais direta: “Perder o acesso ao GPT-5.5 é como uma amputação.”

O cofundador e CEO da Cursor, Michael Truell, complementa: o GPT-5.5 é mais inteligente e resistente que o GPT-5.4, consegue manter tarefas longas e complexas por mais tempo sem parar prematuramente — exatamente o que é mais necessário na engenharia.

Trabalho de conhecimento: a IA pela primeira vez realmente “usa” um computador

Nos testes OSWorld-Verified (avaliando se o modelo consegue operar de forma autônoma em ambientes de computador reais), o GPT-5.5 atingiu uma taxa de sucesso de 78,7%, superior ao GPT-5.4 com 75,0% e ao Claude Opus 4.7 com 78,0%.

Não se trata de análise por captura de tela, mas de controle real da interface: visualizando a tela, clicando, digitando, alternando entre várias ferramentas até concluir a tarefa. Pela primeira vez, a IA demonstra que pode realmente usar um computador junto com você.

No fluxo de trabalho de atendimento ao cliente de telecomunicações Tau2-bench, o GPT-5.5 atingiu 98,0% de precisão sem necessidade de prompts, enquanto o GPT-5.4 ficou em 92,8%.

Isso indica que o modelo compreende suficientemente bem a intenção da tarefa, podendo lidar com diálogos complexos de múltiplas etapas sem prompts elaborados.

Em termos de busca de ferramentas, o GPT-5.5 obteve 84,4% no teste BrowseComp, e o GPT-5.5 Pro alcançou 90,1%, demonstrando forte capacidade de busca contínua e integração de informações em tarefas de pesquisa que envolvem múltiplas fontes.

Pesquisa científica: ajudando a descobrir novas provas matemáticas

Na divulgação, o desempenho do GPT-5.5 na área de pesquisa talvez seja a parte mais surpreendente.

Historicamente, quando falamos de IA na pesquisa, ela era vista como uma “ferramenta auxiliar”, para buscar literatura, escrever código, organizar dados. Mas desta vez, seu papel avançou claramente, participando de etapas mais centrais: raciocínio complexo e até descoberta.

No GeneBench (avaliação de análise de dados em genética e biologia quantitativa de múltiplas fases), o GPT-5.5 obteve 25,0%, contra 19,0% do GPT-5.4. Essas tarefas normalmente levam dias de trabalho de especialistas, exigindo que o modelo raciocine sobre dados possivelmente incorretos, lide com fatores de confusão ocultos e aplique métodos estatísticos modernos de forma quase autônoma.

A curva do gráfico mostra que, à medida que o número de tokens de saída aumenta, o GPT-5.5 mantém uma vantagem crescente sobre o GPT-5.4, atingindo uma diferença clara por volta de 15.000 tokens — indicando que, em tarefas longas que exigem raciocínio profundo, a vantagem do GPT-5.5 se amplia com a complexidade.

No BixBench (benchmark de bioinformática e análise de dados do mundo real), o GPT-5.5 marcou 80,5%, liderando frente ao GPT-5.4 com 74,0%, figurando entre os melhores modelos já publicados.

Um caso específico que chamou atenção foi uma versão interna do GPT-5.5 equipada com frameworks de ferramentas personalizadas, que ajudou a descobrir uma nova prova matemática do número de Ramsey, validada na ferramenta formal Lean. O número de Ramsey é um objeto central na matemática combinatória, com resultados extremamente raros e de alta complexidade técnica. Não se trata de uma simples geração de código ou explicação, mas de uma contribuição real com uma demonstração matemática.

Na prática, também há exemplos convincentes. O professor de imunologia na Jackson Laboratory, Derya Unutmaz, usou o GPT-5.5 Pro para analisar um conjunto de dados de expressão gênica com 62 amostras e quase 28.000 genes, gerando um relatório detalhado, extraindo descobertas e questões de pesquisa — uma tarefa que normalmente levaria meses de equipe.

O assistente de matemática da Universidade de Adam Mitzkevic, de Poznan, Bartosz Naskręcki, com uma única instrução, usou o Codex com GPT-5.5 para construir em 11 minutos uma aplicação de geometria algébrica, visualizando a interseção de duas superfícies quadráticas e convertendo a curva resultante em um modelo de Weierstrass. Os coeficientes das equações exibidos em tempo real podem ser usados diretamente em pesquisas matemáticas subsequentes, do prompt ao resultado, tudo de forma autônoma pelo modelo.

Imagem: Captura de tela da aplicação de geometria algébrica construída pelo professor Bartosz Naskręcki — visualização de interseção de superfícies quadráticas e cálculo em tempo real da equação de Weierstrass

Brandon White, cofundador e CEO da Axiom Bio, foi mais direto: “Se a OpenAI continuar nesse ritmo, a descoberta de medicamentos mudará de base até o final do ano.”

Eficiência de raciocínio: IA ajudando a otimizar sua própria infraestrutura

Um detalhe que pode passar despercebido nesta divulgação, mas que talvez seja a maior inovação técnica, é que:

O GPT-5.5 é um modelo maior e mais potente, mas mantém a latência por token igual à do GPT-5.4 na prática de serviço. Para alcançar essa capacidade maior com a mesma latência, a OpenAI redesenhou toda a arquitetura de raciocínio — e o Codex e o próprio GPT-5.5 participaram diretamente dessa otimização.

A partir do gráfico de índice de análise artificial, fica claro: a curva do GPT-5.5 não só lidera em pontuação geral frente ao GPT-5.4, Claude Opus 4.7 e Gemini 3.1 Pro Preview, como também atinge níveis de desempenho com menor consumo de tokens — ou seja, maior capacidade com menor custo, uma evidência direta de “melhoria de eficiência”.

Imagem: Gráfico de linha do índice de inteligência artificial do Artificial Analysis

Especificamente, o desafio era equilibrar a carga: anteriormente, requests eram divididos em blocos fixos para distribuir a carga na GPU, mas essa divisão estática não era ideal para todos os tipos de tráfego. O Codex analisou semanas de dados de fluxo de produção e criou um algoritmo heurístico personalizado, aumentando a velocidade de geração de tokens em mais de 20%.

O GPT-5.5 foi projetado, treinado e implantado de forma colaborativa com os sistemas NVIDIA GB200 e GB300 NVL72. Em outras palavras, essa geração de modelos participou da otimização da própria arquitetura de raciocínio do serviço — não é metáfora, é uma melhoria literal do sistema de execução de IA.

Segurança cibernética: capacidades aprimoradas e controle mais rigoroso

O GPT-5.5 apresenta melhorias claras na capacidade de segurança cibernética. Nos testes CyberGym, obteve 81,8%, contra 79,0% do GPT-5.4 e 73,1% do Claude Opus 4.7. Em desafios internos de “capture a bandeira” (CTF), a pontuação foi de 88,1%, frente a 83,7% do GPT-5.4.

Imagem: Gráfico de barras do CyberGym e gráfico de dispersão de desafios CTF

A OpenAI classificou as capacidades de segurança cibernética e de biologia/química do GPT-5.5 como “alto” dentro do framework de preparação de emergência, ainda não atingindo o nível “crítico”, mas com melhorias evidentes em relação às versões anteriores. Ao mesmo tempo, admitiram que o novo classificador de riscos mais rigoroso “pode inicialmente causar algum incômodo a alguns usuários” e que ajustes continuarão.

Para equilibrar a defesa e o controle de acesso, a OpenAI lançou o programa de “Acesso Confiável em Segurança Cibernética”: pesquisadores de segurança qualificados e defensores de infraestrutura crítica podem solicitar acessos mais flexíveis, facilitando o uso de capacidades avançadas de segurança cibernética com menos obstáculos.

A lógica por trás disso é: a difusão de capacidades é uma tendência irreversível, e uma estratégia mais realista do que limitar sua expansão é permitir que defensores tenham acesso às ferramentas mais poderosas antes que atacantes possam usá-las.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar