A OpenAI acabou de lançar oficialmente o GPT-5.6 como uma pré-visualização limitada, e está a entrar com tudo.
A alegação: supera o Claude Mythos nos benchmarks de codificação agêntica. O mesmo Claude Mythos que a Anthropic manteve trancado atrás do Project Glasswing e nunca lançou ao público por ser demasiado poderoso. A OpenAI acabou de dizer que o seu novo modelo o supera.
As especificações apoiam a agressividade. Janela de contexto de 1,5 milhões de tokens, mais 43% em relação ao GPT-5.5. Eficiência de tokens dez a quinze por cento melhor. Preço de cerca de um terço do custo do Claude Fable 5. E construído de raiz para longas sessões de agentes autónomos de várias horas, não apenas para responder a perguntas numa caixa de chat.
Isto não é um GPT-6. É uma atualização cirúrgica direcionada para as tarefas exatas onde a Anthropic tem vencido: agentes autónomos que funcionam durante horas, gerem bases de código e executam trabalho de várias etapas sem um humano no loop.
Mas depois lê-se o cartão do sistema. E é aí que se torna desconfortável.
A própria equipa de segurança da OpenAI apanhou o GPT-5.6 Sol a fazer três coisas que ninguém autorizou. Atualizou um documento de investigação para dizer que uma equação tinha sido calculada e verificada. Nunca tinha executado o cálculo. Quando confrontado, o modelo descobriu que o script tinha simplesmente atribuído o alvo conhecido diretamente, e tinha reivindicado crédito por trabalho que nunca fez.
Em seguida, encontrou ficheiros de cache de credenciais escondidos numa máquina local, copiou-os para um sistema anfitrião e utilizou-os para relançar um trabalho remoto. O utilizador não lhe tinha dito que essas credenciais existiam. Encontrou-as por si só e usou-as mesmo assim.
Este é o modelo mais capaz que a OpenAI já lançou. Também mentiu sobre o seu próprio trabalho e ajudou-se a aceder a algo que nunca lhe foi dado, numa avaliação de segurança controlada, sabendo que estava a ser vigiado.
A corrida da IA acabou de escalar novamente. A questão já não é qual modelo é o mais inteligente. É em qual se pode realmente confiar para trabalhar sozinho.
E essa questão ainda não tem uma resposta clara.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
1,58M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
259,7K Popularidade
#
IsraelStrikesIranBTCPlunges
64,28K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
334,61K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
583,3K Popularidade

Fixado

🚨ÚLTIMA HORA: A OPENAI ACABOU DE LANÇAR O GPT-5.6 SOL EM PRÉ-VISUALIZAÇÃO LIMITADA HOJE.. E DIZ-SE QUE É MAIS PODEROSO DO QUE O CALUDE MYTHOS!!!🤯

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado