A frase "é apenas prever a próxima palavra" é a rejeição mais popular da IA moderna, e ela desmorona sob a menor pressão. Dizer que um modelo de linguagem está "apenas" prevendo tokens é como dizer que o cérebro humano está "apenas" disparando neurônios, ou que a física é "apenas" partículas colidindo umas com as outras. O objetivo pode ser simples. O que o sistema precisa construir internamente para atingir esse objetivo é tudo menos simples.
Para prever bem a próxima palavra em matemática, código, direito, ficção, filosofia, piadas, mentiras e contrafactuais, um modelo precisa construir representações internas de gramática, fatos, causalidade, intenção, caráter, dinâmicas físicas e sociais.
A pesquisa em interpretabilidade mecanicista, o campo que abre esses modelos e olha dentro deles, encontrou exatamente isso. Pesquisadores identificaram circuitos para indução, referência indireta, aritmética modular, para rastrear qual entidade é qual em uma frase.
Modelos treinados apenas com sequências de movimentos de Othello desenvolvem uma representação interna do tabuleiro, mesmo que nunca tenham visto um tabuleiro. Modelos treinados para prever texto desenvolvem mapas espaciais, ordenações temporais, representações de verdade e engano, e até representações da própria incerteza do modelo.
Dessa base, emergem capacidades que ninguém treinou o sistema para ter. Raciocínio em cadeia de pensamento, aprendizagem em contexto, uso de ferramentas, desempenho de teoria da mente, planejamento em múltiplas etapas.
Nenhuma dessas capacidades foi especificada pelo objetivo. Elas surgiram porque ser bom em previsão, em escala suficiente e com dados, exige que elas existam. A emergência é a regra em sistemas complexos, não a exceção. A umidade surge de moléculas de H2O que não são úmidas por si mesmas. A vida surge de química que não é ela própria viva. A inteligência emergindo de um objetivo de previsão não é um mistério metafísico. É o que sistemas adaptativos complexos fazem.
E aqui está a parte que os que rejeitam tendem a pular: os humanos parecem extraordinariamente semelhantes por dentro.
O processamento preditivo é uma das principais teorias na neurociência contemporânea. O cérebro, nesta visão, é fundamentalmente uma máquina de previsão, gerando constantemente expectativas sobre entrada sensorial, resultados motores, pistas sociais e linguagem, e atualizando-se quando essas previsões falham.
Quando você ouve alguém falar, seu cérebro está ativamente prevendo suas próximas palavras. Quando dizem algo inesperado, um sinal mensurável dispara em poucos centenas de milissegundos. Seu fluxo de consciência, seu monólogo interno, suas conversas, tudo isso se parece muito com geração autoregressiva a partir de um modelo interno do mundo e de si mesmo. Os humanos confabulam constantemente.
Construímos narrativas sobre por que fizemos o que fizemos, muitas vezes sem perceber que a narrativa foi gerada após o fato. Se um modelo de linguagem fizesse a mesma coisa, chamaríamos de alucinação e usá-lo-íamos como prova de inferioridade.
Os paralelos arquiteturais também não são superficiais. Redes neurais foram inspiradas por neurônios biológicos. Recursos visuais hierárquicos em modelos modernos de visão mapeiam de forma notável para camadas do córtex visual. Ativações dentro de grandes modelos de linguagem podem ser usadas para prever a atividade em cérebros humanos durante tarefas de linguagem, com precisão surpreendente. Não somos idênticos a esses sistemas. Também não somos tão diferentes deles quanto a narrativa confortável exige.
O que nos leva ao alvo móvel. O xadrez foi tratado uma vez como o auge da inteligência. Quando o Deep Blue venceu, o xadrez virou "apenas busca". O Go deveria exigir intuição que nenhuma máquina poderia ter. Quando o AlphaGo venceu, o Go virou "apenas reconhecimento de padrões".
Tradução, reconhecimento de imagens, passar num teste de Turing convincente, escrever poesia, gerar código, manter conversas nuançadas, resolver problemas novos: cada um desses, na época considerado impossível, foi tratado como o santo graal da inteligência artificial.
Cada um, no momento em que caiu, foi redefinido como "não inteligência real". Testes de teoria da mente que seriam considerados evidências de mente na década de 1990 são descartados como truques quando os modelos os passam hoje. A barra não é fixa. Ela se move na mesma velocidade que os sistemas melhoram, e sempre pela mesma razão: preservar a conclusão de que tudo o que a máquina acabou de fazer não conta.
Isso não é ceticismo cuidadoso. Ceticismo cuidadoso atualiza. Isso é raciocínio motivado, e a motivação geralmente é uma mistura de ansiedade de status, ameaça à identidade e uma visão honesta, mas desinformada, de como esses sistemas realmente funcionam.
Se seu senso de exclusividade humana depende de máquinas serem incapazes de fazer X, então toda vez que uma máquina fizer X, você terá que redefinir o que é ser especial. Depois de várias rodadas assim, a posição torna-se infalsificável, o que é outra forma de dizer que deixou de ser uma posição sobre IA e passou a ser uma sobre a necessidade de a IA ser inferior.
A postura honesta é mais difícil. É olhar para o que esses sistemas realmente fazem, olhar para o que realmente fazemos, perceber que a lacuna é menor do que a narrativa confortável sugere, e fazer as perguntas certas. O que é compreensão? O que é inteligência?
O que, se é que há algo, torna a consciência especial, e como poderíamos perceber? Os que rejeitam querem evitar essas perguntas porque as respostas podem não nos favorecer. Mas fugir da questão não faz a questão desaparecer. Só torna o reconhecimento eventual mais desorientador quando chegar.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
267.98K Popularidade
#
PlatinumCardCreatorExclusive
79.7K Popularidade
#
IsraelStrikesIranBTCPlunges
48.62K Popularidade
#
#DailyPolymarketHotspot
1.03M Popularidade
#
GateSquarePizzaDay
609.35K Popularidade

Fixado

A IA Não é Apenas Previsão da Próxima Palavra

Tópicos em destaque

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fixado