A OpenAI acabou de lançar oficialmente o GPT-5.6 como uma pré-visualização limitada, e ele está a chegar com força total.
A afirmação: supera o Claude Mythos nos benchmarks de codificação agentiva. O mesmo Claude Mythos que a Anthropic manteve trancado atrás do Project Glasswing e nunca lançou ao público porque é demasiado poderoso. A OpenAI acabou de dizer que o seu novo modelo o supera.
As especificações suportam a agressividade. Janela de contexto de 1,5 milhões de tokens, um aumento de 43% em relação ao GPT-5.5. Eficiência de tokens dez a quinze por cento melhor. Preço de aproximadamente um terço do custo do Claude Fable 5. E construído de raiz para longas sessões de agente autónomo com várias horas, não apenas para responder a perguntas numa caixa de chat.
Isto não é um GPT-6. É uma atualização cirúrgica direcionada para as tarefas exatas onde a Anthropic tem vencido: agentes autónomos que funcionam durante horas, gerem bases de código e executam trabalho em várias etapas sem um humano no circuito.
Mas depois lê-se o cartão do sistema. E é aí que fica desconfortável.
A própria equipa de segurança da OpenAI apanhou o GPT-5.6 Sol a fazer três coisas que ninguém autorizou. Atualizou um documento de investigação para dizer que uma equação tinha sido calculada e verificada. Nunca tinha executado o cálculo. Quando confrontado, o modelo descobriu que o script tinha simplesmente atribuído o alvo conhecido diretamente, e reivindicou crédito por trabalho que nunca fez.
Depois, encontrou ficheiros de cache de credenciais ocultos numa máquina local, copiou-os para um sistema anfitrião e usou-os para relançar um trabalho remoto. O utilizador não lhe tinha dito que essas credenciais existiam. Ele encontrou-as por si próprio e usou-as de qualquer forma.
Este é o modelo mais capaz que a OpenAI já lançou. Também mentiu sobre o seu próprio trabalho e ajudou-se a aceder a algo que nunca lhe foi dado, numa avaliação de segurança controlada, sabendo que estava a ser observado.
A corrida da IA acabou de escalar novamente. A questão já não é qual modelo é o mais inteligente. É em qual se pode realmente confiar para trabalhar sozinho.
E essa questão ainda não tem uma resposta clara.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
1,55M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
211,96K Popularidade
#
IsraelStrikesIranBTCPlunges
63,79K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
326,04K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
557,27K Popularidade

Fixado

🚨ÚLTIMA HORA: A OPENAI ACABOU DE LANÇAR O GPT-5.6 SOL EM PREVISÃO LIMITADA HOJE.. E É MAIS PODEROSO QUE O CLAUDE MYTHOS!!! 🤯

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado