Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
A AGI já chegou? Nem perto, sugere novo benchmark de IA
Resumo
O CEO da Nvidia, Jensen Huang, participou na semana passada no podcast de Lex Fridman e afirmou, claramente, “Acredito que alcançámos a AGI.” Dois dias depois, o teste mais rigoroso em pesquisa de IA lançou seu mais recente benchmark de inteligência geral artificial — e todos os modelos de ponta pontuaram abaixo de 1%.
A Fundação Prémio ARC lançou esta semana o ARC-AGI-3, e os resultados são brutais. O Gemini 3.1 Pro do Google liderou com 0,37%. O GPT-5.4 da OpenAI obteve 0,26%. O Claude Opus 4.6 da Anthropic conseguiu 0,25%, enquanto o Grok-4.20 da xAI pontuou exatamente zero. Os humanos, por sua vez, resolveram 100% dos ambientes.
Isto não é um teste de trivialidades ou exame de codificação, nem mesmo perguntas ultra difíceis de PhD. O ARC-AGI-3 é algo completamente diferente de tudo que a indústria de IA já enfrentou.
O benchmark foi criado pela fundação de François Chollet e Mike Knoop, que montaram um estúdio de jogos interno e criaram 135 ambientes interativos originais do zero. A ideia é colocar um agente de IA num mundo semelhante a um jogo desconhecido, sem instruções, sem objetivos declarados e sem descrição das regras. O agente deve explorar, descobrir o que deve fazer, formar um plano e executá-lo.
Se isso parece algo que qualquer criança de cinco anos consegue fazer, estás a começar a entender o problema. Se queres ver se és melhor que a IA, podes jogar os mesmos jogos do teste clicando neste link. Tentámos um; foi estranho à primeira, mas após alguns segundos, percebes facilmente como jogar.
Este é também o exemplo mais claro do que significa o “G” em AGI. Quando generalizas, és capaz de criar novo conhecimento (como funciona um jogo estranho) sem ter sido treinado previamente nele.
Versões anteriores do ARC testaram puzzles visuais estáticos — mostrar um padrão, prever o próximo. Eram difíceis no início. Depois, os laboratórios investiram poder computacional e treino até que os benchmarks ficaram praticamente mortos. O ARC-AGI-1, lançado em 2019, focou em modelos de treino e raciocínio durante o teste. O ARC-AGI-2 durou cerca de um ano até que o Gemini 3.1 Pro atingiu 77,1%. Os laboratórios são muito bons em saturar benchmarks contra os quais podem treinar.
A versão 3 foi especificamente desenhada para impedir isso. Com 110 dos 135 ambientes mantidos privados — 55 semi-privados para testes de API, 55 totalmente bloqueados para competição — não há dataset para memorizar. Não é possível forçar uma solução através de lógica de jogo nova que nunca viste.
A pontuação também não é de passar ou falhar. O ARC-AGI-3 usa o que a fundação chama de RHAE — Eficiência Relativa de Ação Humana. A linha de base é o desempenho humano na segunda melhor tentativa. Uma IA que realiza dez vezes mais ações que um humano pontua 1% nesse nível, não 10%. A fórmula eleva ao quadrado a penalização pela ineficiência. Andar à volta, recuar e adivinhar o caminho para uma resposta é severamente punido.
O melhor agente de IA na pré-visualização de um mês de duração obteve 12,58%. Os LLMs de ponta testados via API oficial, sem ferramentas personalizadas, não conseguiram passar de 1%. Humanos comuns resolveram todos os 135 ambientes sem treino prévio e sem instruções. Se esse é o padrão, então os modelos atuais ainda não o estão a atingir.
Existe uma verdadeira discussão metodológica aqui. O relatório do ARC diz que uma ferramenta personalizada criada na Duke levou o Claude Opus 4.6 de 0,25% para 97,1% numa única variante do ambiente chamada TR87. Isso não significa que o Claude tenha pontuado 97,1% no ARC-AGI-3 geral; a sua pontuação oficial no benchmark permaneceu em 0,25%, mas a mudança é significativa.
O benchmark oficial fornece aos agentes código JSON, não visuais. Isso é uma falha metodológica ou uma demonstração de que os modelos atuais são melhores a processar informações amigáveis ao humano do que dados estruturados brutos. A fundação de Chollet reconheceu o debate, mas não vai alterar o formato.
“Percepção do conteúdo do quadro e formato da API não são fatores limitantes para o desempenho do modelo de ponta no ARC-AGI-3,” lê-se no documento. Em outras palavras, parecem rejeitar a ideia de que os modelos falham porque “não conseguem ver” as tarefas corretamente, argumentando que a percepção já é suficiente — e que a verdadeira lacuna está no raciocínio e na generalização.
O teste de realidade da AGI chegou numa semana em que a máquina de hype estava a todo vapor. Além do comentário de Huang, a Arm nomeou o seu novo chip de centro de dados como “CPU AGI”. Sam Altman, da OpenAI, afirmou que eles “basicamente construíram a AGI”, e a Microsoft já está a promover um laboratório focado na construção de uma ASI: uma evolução do que vem depois de alcançar a AGI. O termo está a ser estendido até significar o que for mais conveniente comercialmente, parece.
A posição de Chollet é mais simples. Se um humano normal, sem instruções, consegue fazer, e o teu sistema não consegue, então não tens AGI — tens uma autocompletação muito cara que precisa de muita ajuda.
O Prémio ARC 2026 oferece 2 milhões de dólares em três categorias de competição, todas hospedadas no Kaggle. Cada solução vencedora deve ser de código aberto. O tempo está a correr, e neste momento, as máquinas nem chegam perto.
Boletim Diário de Resumo
Comece o dia com as principais notícias do momento, além de artigos originais, um podcast, vídeos e mais.
O seu Email
Receba já!
Receba já!