GPT-5.4 Pro salta para 150 de QI no teste MESNA Noruega enquanto a OpenAI quebra o seu próprio recorde

Faça CryptoSlate preferido em

O mais recente modelo GPT-5.4 Pro da OpenAI já alcançou uma pontuação de QI superior a 99,96% de todos os seres humanos, dando aos mercados um sinal fresco de que os ganhos de capacidade da IA estão a começar a ultrapassar o ruído habitual do ciclo de produto.

O GPT-5.4 Pro da OpenAI chega a 150 em benchmarks públicos de QI enquanto os mercados entram noutra semana com muitos dados macro

O leaderboard público da TrackingAI agora coloca o OpenAI GPT-5.4 Pro numa pontuação de QI de 150, um salto acentuado face à pontuação de 136 que o OpenAI o3 apresentou no teste da Mensa Norway no ano passado.

A subida chega num momento em que a atenção do mercado se tem estreitado em torno do Irão, energia, fraqueza no trabalho e do próximo registo de inflação. Isso coloca uma questão diferente para a semana seguinte: com que rapidez a inteligência das máquinas está a acumular resultados, e quando é que essa aceleração vai começar a sobrepor-se ao posicionamento económico?

Porque é que isto importa: Uma mudança de 136 para 150 num benchmark amplamente compreendido comprime uma alteração complexa de capacidade num sinal simples. Para as empresas, esse sinal alimenta diretamente decisões sobre automatização, orçamentos de software e planeamento de pessoal. Para os mercados, adiciona mais uma variável ao lado das taxas, da inflação e das expectativas de crescimento.

A OpenAI apresentou o GPT-5.4 como o seu modelo de fronteira mais capaz e eficiente para trabalho profissional, com codificação mais forte, utilização de ferramentas e uso de computador, e uma janela de contexto de até 1 milhão de tokens. No mesmo lançamento, a OpenAI disse que o GPT-5.4 alcançou um novo estado da arte no GDPval e excedeu o desempenho humano no OSWorld-Verified.

Esses benchmarks são distintos de um teste público de QI, mas a direção do movimento está alinhada. A capacidade está a aumentar em sistemas de medição separados, e esse aumento está a ficar suficientemente rápido para influenciar orçamentos, planos de contratação, desenho de fluxos de trabalho e gastos com software.

Uma pontuação de 150 num benchmark público estilo QI comprime uma mudança mais ampla de capacidade num único sinal portátil. O número é fácil de compreender mesmo antes de a metodologia ser debatida.

O resultado anterior da Mensa do o3 estabeleceu o benchmark e os seus limites. A janela de contexto de um milhão de tokens do GPT-4.1 mostrou como a OpenAI estava a alargar a utilidade do modelo em tarefas de código e documentos com horizontes longos, enquanto a nossa análise do ciclo de capital em expansão da OpenAI ligou o progresso do modelo à expansão de hardware, aos ciclos de financiamento e à procura de infraestruturas.

No seu conjunto, esses desenvolvimentos colocam a pontuação de QI mais recente dentro de um contexto comercial e económico mais amplo. Uma mudança de 136 para 150 num benchmark público é impressionante por si só. Uma mudança de 136 para 150 enquanto a OpenAI avança mais em utilização de ferramentas, uso de computador, produtividade empresarial e infraestruturas intensivas em capital tem implicações mais amplas.

Os benchmarks públicos de QI têm limites, mas a curva de capacidade continua a subir

Os testes de estilo QI públicos continuam a ser instrumentos imperfeitos para medir modelos de fronteira. A TrackingAI executa um benchmark público ao estilo da Mensa e também mantém um teste offline privado mais exigente.

Os testes estilo QI comprimem uma fatia estreita do desempenho cognitivo num único número, ocultando a variação entre tipos de raciocínio, gestão do contexto, criatividade e resolução de problemas no mundo real.

Tanto para a IA como para os humanos, as pontuações são sensíveis ao desenho do teste, ao contacto no treino e à familiaridade com padrões, o que as torna um proxy ruidoso para capacidade geral.

Um QI de 150 situa-se no extremo superior extremo da distribuição, frequentemente associado a indivíduos como Albert Einstein ou Richard Feynman. Na prática, implica abstração muito rápida, forte reconhecimento de padrões e capacidade de lidar com problemas complexos de vários passos com orientação limitada.

A plataforma reporta pontuações como médias móveis ao longo de conclusões recentes, e a metodologia levanta questões familiares em torno da estrutura do prompt, da reprodutibilidade, da contaminação do conjunto de treino e da familiaridade com o formato. Essas preocupações já eram visíveis quando o o3 chegou a 136, e continuam agora ativas em que o GPT-5.4 Pro está nos 150.

Leitura relacionada

As pontuações do o3 da OpenAI: o 136 no teste da Mensa Norway, acima de 98% da população humana

O modelo o3 da OpenAI atinge nível de QI da Mensa em testes independentes.

Apr 17, 2025 · Liam ‘Akiba’ Wright

Mesmo com esses limites, o padrão mais amplo tornou-se mais difícil de ignorar. Um único resultado isolado de benchmark pode ser explicado como uma particularidade. Um conjunto de ganhos ao longo de testes públicos estilo QI, codificação, utilização de browser, navegação no desktop e desempenho em trabalho de conhecimento tem mais peso analítico.

O mais recente leaderboard da TrackingAI coloca o GPT-5.4 Pro no topo do seu quadro público de QI, à frente de todos os modelos Cluade, Gemini, Qwen e Grok, oferecendo um benchmark público externo e legível que se mapeia rapidamente para o debate mais amplo sobre capacidade.

Poucas pessoas precisam de uma compreensão detalhada sobre o desenho do benchmark para perceber que 150 está numa gama rara e que os investidores não precisam de aceitar cada premissa por trás de um teste estilo QI para reconhecer que uma subida deste tamanho sugere aceleração em vez de deriva.

Gráfico intitulado “Resultados do Teste de QI de IA” mostrando as pontuações médias de QI da Mensa Norway para os principais modelos de IA numa curva em sino, com as variantes do GPT-5.4 da OpenAI traçadas perto do extremo superior da gama.

Os compradores empresariais também não precisam de acreditar que QI equivale a inteligência geral para ver que os sistemas com melhor reconhecimento de padrões, melhor utilização de ferramentas e melhor capacidade de lidar com tarefas com horizontes longos estão a avançar para um território economicamente útil, indo muito além da simples resolução de puzzles.

Isto aponta para sistemas que conseguem pesquisar, planear, verificar, navegar e produzir trabalho real ao longo de contextos alargados. Neste cenário, a pontuação de QI funciona menos como um número de novidade e mais como um sinal da densidade do raciocínio de fronteira.

Também existe valor competitivo no próprio leaderboard. Uma posição de liderança num benchmark público reforça o posicionamento da OpenAI na corrida pela liderança de capacidade visível, especialmente num momento em que a diferenciação entre modelos está a tornar-se mais difícil de discernir apenas a partir de notas de arquitetura.

A liderança em benchmarks comprime a complexidade numa hierarquia simples. Oferece aos programadores um sinal, aos compradores empresariais uma narrativa e aos investidores mais um proxy para onde a fronteira de capacidade se encontra atualmente.

CryptoSlate Daily Brief

Sinais diários, zero ruído.

Titulares com impacto no mercado e contexto entregues todas as manhãs numa leitura breve.

5-minute digest 100k+ readers

Endereço de email

Receber o brief

Grátis. Sem spam. Cancele quando quiser.

Ups, parece que houve um problema. Por favor, tente novamente.

Está subscrito. Bem-vindo a bordo.

A subida do benchmark da OpenAI está a começar a sobrepor-se à semana económica que aí vem

A semana que aí vem ainda passa por macro. O calendário do Bureau of Labor Statistics deixa claramente delineadas as próximas divulgações-chave: as atas do FOMC da reunião de 17 a 18 de março, a publicar a 8 de abril; o Índice de Preços no Consumidor de março, a publicar a 10 de abril; e o Índice de Preços no Produtor de março, a publicar a 14 de abril.

Esse calendário mantém as taxas, a inflação e a ansiedade com o crescimento na linha da frente, mas por baixo dessa superfície, está a tomar forma um segundo eixo económico, e a OpenAI está perto do centro desse eixo.

O crescimento de capacidade em IA de fronteira cruza-se cada vez mais com a alocação de capital. Um modelo que sobe mais em testes públicos de raciocínio e que, ao mesmo tempo, melhora em programação, pesquisa e uso de computador altera a forma como as empresas pensam em redesenhar fluxos de trabalho. Altera aquilo que os compradores de software esperam de copilots e agentes. Altera a rapidez com que as empresas passam de experimentação para implementação.

Jack Dorsey publicou recentemente que a Block está a mover-se “da hierarquia para a inteligência”, usando IA para assumir o trabalho de coordenação que antes era tratado por camadas de gestão à medida que a empresa se reorganiza em torno de colaboradores individuais, indivíduos diretamente responsáveis e player-coaches

O crescimento de capacidade também altera que tarefas podem ser retiradas das estruturas de custos do trabalho e reatribuídas ao software. Esses efeitos passam primeiro por canais mais estreitos, incluindo fluxos de trabalho de documentos, fluxos de trabalho de folhas de cálculo, apoio ao cliente, tarefas de investigação, automatização de navegação no browser, operações internas, geração de código e ciclos de verificação.

A orientação comercial da OpenAI reforça essa interpretação. Nos materiais de lançamento do GPT-5.4, a empresa descreveu melhor desempenho no trabalho profissional, melhor pesquisa com ferramentas, uso nativo de computador e ganhos em trabalho de conhecimento aferido por benchmarks em ocupações que se mapeiam diretamente para a economia dos EUA.

Isso coloca o crescimento da capacidade de IA dentro de uma questão de mercado familiar, em que os fluxos de despesa seguem para onde estes sistemas continuem a melhorar neste ritmo.

A resposta vai além das receitas de subscrição do modelo, estendendo-se à procura de cloud, chips, centros de dados, redes, energia, licenças de software e pressupostos de produtividade do trabalho. O ciclo de capital em expansão da OpenAI já reflete parte dessa estrutura, e o ganho no benchmark acrescenta um sinal público mais simples em cima disso.

Essa sobreposição é o que dá ao resultado mais recente relevância mais ampla durante uma semana com muitos dados de macro. Os mercados já conhecem o cenário do CPI. Os mercados já sabem que os preços do petróleo podem alimentar as expectativas de inflação. Os mercados já sabem que as atas do Fed serão analisadas quanto ao tom de política.

Mas será que o crescimento na própria inteligência começa a comportar-se como uma variável macro? Ganhos mais rápidos de capacidade podem alterar planos de despesa das empresas, aumentar a pressão competitiva em funções de trabalhadores de escritório, apoiar maiores investimentos em infraestruturas e fortalecer o caso para despesa de capital ligada à IA mesmo num ambiente de crescimento nominal mais lento.

Quando a TrackingAI mostra o GPT-5.4 Pro nos 150, o número cai dentro de um mercado que já vê a OpenAI como mais do que um laboratório. É uma empresa de plataforma, uma empresa de implementação, um cliente de infraestruturas e um gerador de sinais para setores adjacentes.

O próximo teste está em dois lugares ao mesmo tempo. Um é metodológico; os benchmarks públicos estilo QI continuarão a atrair escrutínio, e devem. O outro é económico; os mercados decidirão, passo a passo, se saltos de capacidade deste tamanho merecem ser precificados ao lado de dados de emprego, expectativas de taxas e tendências de despesa de capital.

A mais recente subida do benchmark da OpenAI aproxima essa decisão. A pontuação é compacta, legível e fácil de circular. A relevância mais profunda vem do mesmo lugar do impulso mais amplo de produto da empresa; a fronteira continua a subir, e a pegada económica desse avanço está a tornar-se mais difícil de manter numa categoria separada.

Referido neste artigo

OpenAI Anthropic Google X Sam Altman

Publicado em

Destaques EUA Tecnologia Cultura IA Comunidade

Contexto

Cobertura relacionada

Mude categorias para aprofundar ou obter contexto mais amplo.

Notícias locais nos EUA      Categoria principal de IA      Notícias de comunicados de imprensa Newswire  

Análise

Porque é que o Bitcoin subiu brevemente acima de $70,000 nas esperanças de um acordo com o Irão, enquanto a ameaça de Hormuz de Trump mantém o rali frágil

O petróleo perto de $112 e o CPI e o Fed iminentes podem decidir se este ressalto sobrevive ou se transforma numa correção mais profunda.

2 mins ago

Análise

Citadel Securities e Fidelity acabaram de dar o seu passo mais claro até agora para reconstruir cripto como Wall Street

O pedido pode deslocar mais do “back end” do trading de cripto para mãos supervisionadas federalmente se as instituições seguirem.

4 hours ago

Wall Street vê uma abertura de $10 biliões à medida que Washington reescreve as regras do 401(k)

Análise · 12 hours ago

Forte relatório de emprego nos EUA atrasa alívio da Fed enquanto o Bitcoin enfrenta o seu próximo teste macro

Análise · 1 day ago

O trade do tesouro do Bitcoin enfrenta um teste de stress à medida que a pressão da dívida desencadeia vendas

Análise · 2 days ago

Os derivados de Bitcoin emitem aviso enquanto o mercado de $46B recua do rali do cessar-fogo com o Irão

Análise · 2 days ago

IA

O projeto de cripto-IA OpenServ afirma superar a OpenAI em comparações diretas de benchmark

A plataforma de cripto-IA está a fazer alegações maiores contra a OpenAI, aumentando as apostas para prova, implementações e credibilidade dos tokens.

2 hours ago

Tecnologia

A Ripple impulsiona uma blockchain mais privada para bancos e adiciona verificações de código de IA à medida que crescem os receios de que possa deixar o preço do XRP para trás

A Ripple pretende revolucionar blockchain institucional com funcionalidades reforçadas de privacidade e segurança em IA na XRPL.

1 week ago

Os vencedores da cripto a partir de IA não são moedas de IA, já que os agentes começam a gastar autonomamente

Análise · 1 week ago

O reset da IA já está em curso à medida que os despedimentos se aceleram e um grupo é atingido com mais força

IA · 4 weeks ago

A cripto pode proteger-nos contra a crescente teia de agentes económicos de IA?

IA · 4 weeks ago

A IA está a contratar mais programadores seniores enquanto apaga silenciosamente os empregos que os criam

IA · 1 month ago

A CoinRabbit reduz as taxas de empréstimo em cripto para empréstimos em XRP e 300+ ativos

Com as taxas de empréstimo agora a começar nos 11,95%, a CoinRabbit está a expandir empréstimos suportados por cripto a custos mais baixos em XRP e 300+ ativos suportados.

3 hours ago

A ADI Chain anuncia ADI Predictstreet como parceiro de mercado de previsões para a FIFA World Cup 2026

Apoiado pela ADI Chain, o ADI Predictstreet será lançado no maior palco do futebol como parceiro oficial do mercado de previsões da FIFA World Cup 2026.

3 days ago

A exchange BTCC nomeada Parceiro Regional Oficial da Seleção Nacional da Argentina

PR · 4 days ago

Encrypt vai chegar à Solana para impulsionar mercados de capitais encriptados

PR · 6 days ago

Ika vai chegar à Solana para impulsionar mercados de capitais sem ponte

PR · 6 days ago

O lançamento do Mainnet TxFlow L1 marca uma nova fase para finanças on-chain multiaplicação

PR · 6 days ago

Disclaimer

As opiniões dos nossos autores são apenas as deles e não refletem a opinião da CryptoSlate. Nenhuma das informações que lê na CryptoSlate deve ser considerada aconselhamento de investimento, nem a CryptoSlate endossa qualquer projeto que possa ser mencionado ou ligado neste artigo. A compra e a negociação de criptomoedas devem ser consideradas uma atividade de alto risco. Por favor, faça a sua própria diligência antes de tomar qualquer ação relacionada com o conteúdo deste artigo. Por fim, a CryptoSlate não assume qualquer responsabilidade caso perca dinheiro ao negociar criptomoedas. Para mais informações, consulte os nossos avisos legais da empresa.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar