A equipa de investigação da Zhejiang University propõe uma nova abordagem: ensinar à IA a forma como o cérebro humano compreende o mundo

robot
Geração de resumo em curso

Os modelos de grandes dimensões têm-se mantido em constante crescimento, e a opinião dominante é que, quanto mais parâmetros tiver um modelo, mais este se aproxima da forma de pensar dos seres humanos. No entanto, uma investigação levada a cabo pela equipa da Zhejiang University, publicada a 1 de abril em Nature Communications, apresenta um ponto de vista diferente (link para o texto original: https://www.nature.com/articles/s41467-026-71267-5). Descobriram que, quando a dimensão do modelo (principalmente SimCLR, CLIP, DINOv2) aumenta, a capacidade de identificar objetos específicos continua, de facto, a melhorar. Contudo, a capacidade de compreender conceitos abstratos não só não melhora, como até diminui. Quando os parâmetros aumentam de 22,06 milhões para 304,37 milhões, a tarefa de conceitos concretos sobe de 74,94% para 85,87%, enquanto a tarefa de conceitos abstratos desce de 54,37% para 52,82%.

Diferença entre a forma de pensar de humanos e de modelos

O cérebro humano, ao processar conceitos, forma primeiro um conjunto de relações de classificação. A pata (cisne) e a coruja têm aparência diferente; ainda assim, as pessoas colocam-nas na categoria dos pássaros. Mais acima, os pássaros e os cavalos ainda podem ser colocados na camada seguinte, a de animais. Quando as pessoas veem algo novo, muitas vezes pensam primeiro com que coisas já viram se parece e, em seguida, a que categoria pertence. As pessoas continuam a aprender novos conceitos, a organizar experiências e, com estas relações, identificar novas coisas e adaptar-se a novas situações.

Os modelos também classificam, mas a forma como o fazem é diferente. Baseiam-se sobretudo nas formas que aparecem repetidamente em grandes quantidades de dados. Quanto mais vezes um objeto específico aparece, mais fácil é para o modelo reconhecê-lo. Ao chegar a esta etapa de categorias mais amplas, o modelo fica mais “com dificuldade”. Precisa de captar as semelhanças entre vários objetos e depois agrupar essas semelhanças na mesma categoria. Os modelos existentes ainda têm, aqui, lacunas evidentes. À medida que os parâmetros continuam a aumentar, as tarefas de conceitos concretos melhoram, enquanto as tarefas de conceitos abstratos, por vezes, até diminuem.

O ponto em comum entre o cérebro humano e os modelos é que, no interior de ambos, se forma um conjunto de relações de classificação. No entanto, o foco de cada lado é diferente: as áreas visuais de nível superior do cérebro humano separam naturalmente grandes categorias como seres vivos e objetos inanimados. Os modelos conseguem separar objetos específicos, mas têm dificuldade em formar de forma estável essas categorias mais amplas. Esta diferença faz com que o cérebro humano aplique mais facilmente experiências antigas a novos objetos; por isso, quando nos deparamos com algo que nunca vimos, conseguimos classificá-lo rapidamente. Já os modelos dependem mais do conhecimento existente; por isso, quando encontram um novo objeto, é mais provável ficarem presos às características superficiais. O método proposto no artigo desenvolve-se precisamente em torno desta característica: usar sinais cerebrais para impor restrições à estrutura interna do modelo, tornando-a mais semelhante à forma como o cérebro classifica.

Solução da equipa da Zhejiang University

A solução apresentada pela equipa também é bastante singular: não é continuar a empilhar parâmetros, mas sim usar uma pequena quantidade de sinais cerebrais para supervisão. Estes sinais cerebrais provêm do registo da atividade cerebral quando uma pessoa vê imagens. O texto original do artigo diz que se “transferem human conceptual structures transfer para DNNs”. Em outras palavras, tenta-se ensinar ao modelo como o cérebro humano classifica, como faz inferências e como coloca conceitos semelhantes no mesmo grupo.

A equipa realizou experiências usando 150 categorias de treino conhecidas e 50 categorias de teste que não tinham sido vistas. Os resultados mostram que, à medida que o treino avança, a distância entre o modelo e as representações cerebrais diminui continuamente. Esta mudança ocorre simultaneamente em ambos os tipos de categorias, o que indica que o modelo não aprendeu um único exemplo isolado, mas começou a aprender, de facto, uma forma de organizar conceitos mais próxima do cérebro humano.

Após este treino, o modelo tem uma maior capacidade de aprender com amostras muito escassas e apresenta-se melhor perante situações novas. Numa tarefa em que apenas são dados pouquíssimos exemplos, mas se exige que o modelo distinga conceitos abstratos como seres vivos e objetos inanimados, o modelo melhorou em média 20,5% e ainda superou modelos de comparação com uma quantidade de parâmetros muito maior. A equipa também realizou mais 31 conjuntos de testes específicos; em várias categorias de modelos, verificou-se uma melhoria próxima de uma décima.

Nos últimos anos, o caminho mais familiar na indústria de modelos tem sido aumentar a escala do modelo. A equipa da Zhejiang University escolheu outra direção: sair do “bigger is better” (maior é melhor) para o “structured is smarter” (estruturado é mais inteligente). A expansão da escala é certamente útil, mas melhora sobretudo o desempenho em tarefas conhecidas. A capacidade humana de compreensão abstrata e de transferência para IA é igualmente crucial; no futuro, é necessário fazer com que a estrutura de pensamento da IA se aproxime mais do cérebro humano. O valor deste rumo está em, ao invés de deixar a atenção da indústria ficar apenas na expansão de escala, reconduzi-la à própria estrutura cognitiva.

Neosoul e o futuro

Isto levanta uma possibilidade ainda maior: a evolução da IA pode não acontecer apenas na fase de treino do modelo. O treino do modelo pode determinar como a IA organiza conceitos e como forma estruturas de julgamento de maior qualidade. Depois de entrar no mundo real, começa apenas uma segunda camada de evolução da IA: como é que as decisões de agentes de IA são registadas, como são verificadas, como evoluem e crescem continuamente na competição real entre si, de forma semelhante à autoaprendizagem e à autoevolução dos seres humanos. E é precisamente isso que o Neosoul está a fazer agora. O Neosoul não faz apenas com que os agentes de IA produzam respostas; coloca os agentes de IA num sistema de previsão contínua, verificação contínua, liquidação contínua e seleção contínua, para que otimizem a si próprios entre a previsão e os resultados, preservando estruturas melhores e eliminando estruturas piores. O que a equipa da Zhejiang University e o Neosoul apontam em conjunto é, na verdade, o mesmo objetivo: fazer com que a IA deixe de ser apenas “boa a fazer testes”, passando também a possuir capacidades abrangentes de pensamento e a evoluir continuamente.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar