A AGI já chegou? Nem perto, sugere novo benchmark de IA

Resumo

  • ARC-AGI-3 revela uma enorme lacuna entre as alegações de AGI e a realidade, com os principais modelos de IA a pontuar abaixo de 1%, enquanto os humanos alcançam desempenho perfeito.
  • O benchmark testa a verdadeira generalização — exigindo que os agentes explorem, planejem e aprendam do zero em ambientes desconhecidos, em vez de apenas recordar padrões treinados.
  • Apesar do hype da indústria, os sistemas atuais de IA ainda estão longe de ser AGI, faltando-lhes o raciocínio e a adaptabilidade que até jovens humanos demonstram naturalmente.

O CEO da Nvidia, Jensen Huang, participou na semana passada no podcast de Lex Fridman e afirmou, claramente, “Acredito que alcançámos a AGI.” Dois dias depois, o teste mais rigoroso em pesquisa de IA lançou seu mais recente benchmark de inteligência geral artificial — e todos os modelos de ponta pontuaram abaixo de 1%.

A Fundação Prémio ARC lançou esta semana o ARC-AGI-3, e os resultados são brutais. O Gemini 3.1 Pro do Google liderou com 0,37%. O GPT-5.4 da OpenAI obteve 0,26%. O Claude Opus 4.6 da Anthropic conseguiu 0,25%, enquanto o Grok-4.20 da xAI pontuou exatamente zero. Os humanos, por sua vez, resolveram 100% dos ambientes.

Isto não é um teste de trivialidades ou exame de codificação, nem mesmo perguntas ultra difíceis de PhD. O ARC-AGI-3 é algo completamente diferente de tudo que a indústria de IA já enfrentou.

O benchmark foi criado pela fundação de François Chollet e Mike Knoop, que montaram um estúdio de jogos interno e criaram 135 ambientes interativos originais do zero. A ideia é colocar um agente de IA num mundo semelhante a um jogo desconhecido, sem instruções, sem objetivos declarados e sem descrição das regras. O agente deve explorar, descobrir o que deve fazer, formar um plano e executá-lo.

Se isso parece algo que qualquer criança de cinco anos consegue fazer, estás a começar a entender o problema. Se queres ver se és melhor que a IA, podes jogar os mesmos jogos do teste clicando neste link. Tentámos um; foi estranho à primeira, mas após alguns segundos, percebes facilmente como jogar.

Este é também o exemplo mais claro do que significa o “G” em AGI. Quando generalizas, és capaz de criar novo conhecimento (como funciona um jogo estranho) sem ter sido treinado previamente nele.

Versões anteriores do ARC testaram puzzles visuais estáticos — mostrar um padrão, prever o próximo. Eram difíceis no início. Depois, os laboratórios investiram poder computacional e treino até que os benchmarks ficaram praticamente mortos. O ARC-AGI-1, lançado em 2019, focou em modelos de treino e raciocínio durante o teste. O ARC-AGI-2 durou cerca de um ano até que o Gemini 3.1 Pro atingiu 77,1%. Os laboratórios são muito bons em saturar benchmarks contra os quais podem treinar.

A versão 3 foi especificamente desenhada para impedir isso. Com 110 dos 135 ambientes mantidos privados — 55 semi-privados para testes de API, 55 totalmente bloqueados para competição — não há dataset para memorizar. Não é possível forçar uma solução através de lógica de jogo nova que nunca viste.

A pontuação também não é de passar ou falhar. O ARC-AGI-3 usa o que a fundação chama de RHAE — Eficiência Relativa de Ação Humana. A linha de base é o desempenho humano na segunda melhor tentativa. Uma IA que realiza dez vezes mais ações que um humano pontua 1% nesse nível, não 10%. A fórmula eleva ao quadrado a penalização pela ineficiência. Andar à volta, recuar e adivinhar o caminho para uma resposta é severamente punido.



O melhor agente de IA na pré-visualização de um mês de duração obteve 12,58%. Os LLMs de ponta testados via API oficial, sem ferramentas personalizadas, não conseguiram passar de 1%. Humanos comuns resolveram todos os 135 ambientes sem treino prévio e sem instruções. Se esse é o padrão, então os modelos atuais ainda não o estão a atingir.

Existe uma verdadeira discussão metodológica aqui. O relatório do ARC diz que uma ferramenta personalizada criada na Duke levou o Claude Opus 4.6 de 0,25% para 97,1% numa única variante do ambiente chamada TR87. Isso não significa que o Claude tenha pontuado 97,1% no ARC-AGI-3 geral; a sua pontuação oficial no benchmark permaneceu em 0,25%, mas a mudança é significativa.

O benchmark oficial fornece aos agentes código JSON, não visuais. Isso é uma falha metodológica ou uma demonstração de que os modelos atuais são melhores a processar informações amigáveis ao humano do que dados estruturados brutos. A fundação de Chollet reconheceu o debate, mas não vai alterar o formato.

“Percepção do conteúdo do quadro e formato da API não são fatores limitantes para o desempenho do modelo de ponta no ARC-AGI-3,” lê-se no documento. Em outras palavras, parecem rejeitar a ideia de que os modelos falham porque “não conseguem ver” as tarefas corretamente, argumentando que a percepção já é suficiente — e que a verdadeira lacuna está no raciocínio e na generalização.

O teste de realidade da AGI chegou numa semana em que a máquina de hype estava a todo vapor. Além do comentário de Huang, a Arm nomeou o seu novo chip de centro de dados como “CPU AGI”. Sam Altman, da OpenAI, afirmou que eles “basicamente construíram a AGI”, e a Microsoft já está a promover um laboratório focado na construção de uma ASI: uma evolução do que vem depois de alcançar a AGI. O termo está a ser estendido até significar o que for mais conveniente comercialmente, parece.

A posição de Chollet é mais simples. Se um humano normal, sem instruções, consegue fazer, e o teu sistema não consegue, então não tens AGI — tens uma autocompletação muito cara que precisa de muita ajuda.

O Prémio ARC 2026 oferece 2 milhões de dólares em três categorias de competição, todas hospedadas no Kaggle. Cada solução vencedora deve ser de código aberto. O tempo está a correr, e neste momento, as máquinas nem chegam perto.

Boletim Diário de Resumo

Comece o dia com as principais notícias do momento, além de artigos originais, um podcast, vídeos e mais.

O seu Email

Receba já!

Receba já!

XAI-0,9%
GROK-3,92%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar