ARC-AGI-3: A nova referência de Chollet revela que a IA contemporânea não consegue adaptar-se em tempo real

robot
Geração de resumo em curso

O que aconteceu

François Chollet publicou o ARC-AGI-3, um novo benchmark para medir o progresso em AGI.

Detalhes

  • Chollet é o autor do Keras e desde 2019 《On the Measure of Intelligence》 tem investigado como medir a inteligência. A sua ideia central: um bom benchmark deve expor as fraquezas de um sistema, e não validar as interpretações existentes.
  • O ARC-AGI-3 adiciona testes de “raciocínio interativo”, para ver se o sistema consegue, com base no senso comum, ajustar-se ao mesmo tempo que reage a contextos novos.
  • Os resultados são diretos: os avaliadores humanos resolveram tudo na primeira tentativa; a eficiência de ações dos modelos de IA de topo ficou abaixo de 1%.
  • Este benchmark será atualizado continuamente: as pontuações das versões anteriores subiram bastante após melhorias na inferência do modelo e nas capacidades de código, por isso o benchmark precisa de se reforçar continuamente, forçando a revelar o que ainda falta.

Humanos vs. modelos atuais

Métrica Humanos Modelos de IA de topo
Eficiência de primeira resolução/ação 100% <1%

Mensagem central: isto não é um problema de variação que uma afinação consegue resolver; é uma falha fundamental na capacidade de “responder no momento”.

Porque é importante

  • Se o sistema precisa de muita preparação para completar tarefas que humanos “veem de relance”, este é um problema estrutural para a rota rumo à AGI: estamos a medir a inteligência com indicadores errados?
  • Chollet não está a dizer que a IA atual é “muito má”, mas sim que: memória e correspondência de padrões construídas à escala geram informação limitada; um benchmark que consiga medir a adaptação real a contextos novos está mais perto do que nos interessa.
  • Para investigadores e developers, o sinal do ARC-AGI-3 é muito claro: não é apenas uma questão de acrescentar escala; são necessárias mudanças estruturais nos mecanismos de aprendizagem e adaptação.

Avaliação do impacto

  • Importância: Alta
  • Categoria: Pesquisa em IA, insights técnicos, tendências da indústria

Conclusão: é um sinal inicial, mas crucial, com maior valor para investigadores e builders — quem introduzir inovação arquitetónica nos mecanismos de aprendizagem e adaptação vai ganhar vantagem; quem fizer apenas trading não se relaciona muito com esta direcção.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar