Acabei de assistir à reprise de Demis Hassabis falando na Y Combinator sobre onde realmente estamos em relação à AGI, e honestamente algumas opiniões valem a pena refletir por um minuto.



Então, aqui está a coisa: de acordo com o fundador da DeepMind, basicamente já temos a maior parte das peças arquitetônicas necessárias para a AGI. Pré-treinamento em grande escala, RLHF, raciocínio em cadeia—provavelmente esses serão parte da arquitetura final. Mas ainda faltam uma ou duas peças críticas. Aprendizado contínuo, raciocínio de longo prazo e certos aspectos da memória ainda não estão resolvidos. Sua linha do tempo pessoal? Por volta de 2030. Se isso estiver sequer próximo da realidade, muda a forma como você deve pensar em qualquer projeto de longo prazo que esteja construindo hoje.

O que chamou minha atenção foi o problema da "inteligência irregular" que ele descreveu. Modelos atuais conseguem resolver problemas de matemática nível ouro olímpico, mas depois cometem erros elementares de aritmética em uma questão diferente. É como se o processo de raciocínio tivesse pontos cegos enormes. Ele deu um exemplo de xadrez—às vezes o Gemini percebe que está prestes a fazer uma jogada ruim, mas faz mesmo assim porque não consegue encontrar alternativas melhores. Um sistema verdadeiramente inteligente não deveria funcionar assim. A equipe da DeepMind acha que consertar isso pode exigir apenas uma ou duas melhorias específicas, mas é uma lacuna clara.

Sobre agentes: Hassabis foi bastante direto—estamos apenas começando. Todo mundo está experimentando, mas ainda não encontramos os casos de uso matadores. Ele mencionou que ninguém criou um jogo AAA de alto nível usando ferramentas de codificação por IA, apesar de ser teoricamente possível com as capacidades atuais. Algo está faltando, seja nas ferramentas ou no processo. Ele espera ver avanços reais em aplicações de agentes dentro de 6 a 12 meses.

A discussão sobre memória também foi fascinante. Janelas de contexto de um milhão de tokens parecem enormes até você perceber que isso equivale a cerca de 20 minutos de streaming de vídeo. E a abordagem atual é basicamente encher essas janelas com tudo—dados importantes e não importantes misturados. O cérebro faz isso de forma elegante através de ciclos de sono e consolidação de memória. A DeepMind vem pensando nisso desde os dias do DQN, lá em 2013, inspirando-se na neurociência, mas ainda usamos abordagens rudimentares.

Na questão da destilação: a hipótese deles é que, dentro de 6 a 12 meses após o lançamento de um modelo de ponta, eles podem comprimir suas capacidades em modelos muito menores que rodem em dispositivos de borda. Ainda não atingiram limites teóricos. Os modelos Gemma são um bom exemplo—Gemma 4 funciona excepcionalmente bem para seu tamanho. Isso importa porque significa IA rápida, eficiente e privada—rodando localmente no seu telefone ou robô, ao invés de na nuvem.

O que realmente se destacou foi o ponto dele sobre avanços científicos. AlphaFold foi enorme—três milhões de pesquisadores ao redor do mundo agora o usam, e ele ouviu dizer que fará parte de quase todo processo futuro de descoberta de medicamentos. Mas isso é só o começo. Ele chama isso de "teste de Einstein": você consegue treinar um sistema com conhecimento de 1901 e fazê-lo derivar de forma independente o que Einstein descobriu em 1905? Quando isso funcionar, estaremos próximos de sistemas que podem realmente inventar coisas novas, ao invés de apenas resolver problemas existentes.

Para os fundadores, o conselho dele foi direto: busque problemas que só você pode resolver, se você não o fizer. Não otimize para o fácil. Além disso—e isso é importante—se você está começando um projeto de deep tech hoje que deve durar dez anos, precisa considerar a possibilidade de que a AGI possa aparecer na metade do caminho. Pense se seu projeto pode funcionar com a AGI, como ela se integra, se continua útil nesse mundo. A visão dele é de sistemas especializados, como o AlphaFold, atuando como ferramentas que modelos de uso geral, como o Gemini, podem chamar, e não tudo embutido em um único modelo gigante.

A vertente multimodal da DeepMind também é interessante. Construir o Gemini multimodal desde o início foi mais difícil inicialmente, mas agora está valendo a pena—modelos de mundo melhores, aplicações em robótica, integração com condução autônoma. Isso está se tornando uma vantagem competitiva.

No geral, a conversa pintou um quadro de progresso em IA que é rápido, mas ainda com obstáculos técnicos específicos a superar. Não estamos apenas escalando até a AGI—há problemas reais que precisam ser resolvidos. E para quem está construindo nesse espaço, o cronograma importa. Pense no que ainda é valioso quando o cenário mudar.
AGI0,32%
MATH-1,62%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar