O caminho para AGI: a lógica por trás do ChatGPT, compressão é inteligência

2023-09-04 08:19:52

Penso, logo existo

No mês passado, no acampamento de código feminino de Shanhaiwu, como palestrante, compartilhei uma edição de “O Caminho para AGI: Compressão é Inteligência” e descobri que todos estavam muito interessados em AIGC e modelos grandes, mas muitos amigos não entendiam isso em o tempo. , então escrevi esta explicação vernácula. Espero que possa ser útil para aqueles que estão interessados no AIGC. Se você precisar de uma compreensão mais aprofundada, consulte o discurso principal de Jack Rae (membro principal da equipe OpenAI) em Stanford depois de ler este artigo: Compression for AGI (esta também é a referência principal deste artigo.

1 Vamos começar com aprendizado de máquina

O aprendizado de máquina (aprendizado de máquina) pode ser desconhecido para amigos que não têm experiência em informática. Mas todos os aspectos de nossas vidas já são cobertos pelo aprendizado de máquina. Por exemplo, quando abrimos Zhihu, Douyin, Xiaohongshu e outros softwares, o sistema recomendará automaticamente conteúdo que possa nos interessar; quando acabei de conversar com meus amigos sobre a compra de uma determinada marca de saia, abri o Taobao e descobri que Pesquisar as recomendações tornaram-se a marca; os sistemas de e-mail bloquearão automaticamente o spam para nós; as câmeras de trânsito tiram fotos dos motoristas para inferir se há violações. Todos eles se beneficiam do aprendizado de máquina.

Então, o que exatamente é aprendizado de máquina? A teoria mais antiga de aprendizado de máquina foi proposta por Bayes no teorema de mesmo nome publicado em 1783. O teorema de Bayes está aprendendo com dados de treinamento para fazer as melhores previsões possíveis sobre dados novos e invisíveis. Para ser franco, é o que dizemos “por analogia”.

É a disciplina que permite que os computadores aprendam por si próprios, sem serem explicitamente programados (Arthur, 1959), e é um subcampo da inteligência artificial. Algumas coisas podemos fazer por meio de programação explícita, como calcular 188 elevado à 12ª potência ou a distância mais curta de a a b. Mas existem alguns problemas com os quais a programação explícita não pode nos ajudar.

Por exemplo, esperamos que o computador possa se tornar um excelente jogador de Go. Podemos programar o computador para deixá-lo jogar xadrez sozinho. Depois de jogar 10.000 vezes, o computador pode observar que, em um final de jogo, a taxa de vitórias de uma determinada posição for maior que Elsewhere, é onde o programa escolherá. Devido ao poderoso poder computacional do computador, ele pode completar inúmeros jogos em um curto período de tempo, então saberá cada vez mais como vencer e, eventualmente, se tornará um jogador de xadrez que supera os humanos. Deixar a máquina aprender sozinha para encontrar a melhor solução é o processo de aprendizado de máquina, mas o que exatamente a máquina aprendeu? Esta é uma caixa preta, só podemos obter uma saída da entrada.

Os algoritmos de aprendizado de máquina podem ser divididos em quatro tipos de acordo com os métodos de aprendizagem: Aprendizagem supervisionada, Aprendizagem não supervisionada, Aprendizagem semissupervisionada e Aprendizagem por reforço. O mais utilizado é o aprendizado supervisionado, mas o ChatGPT escolheu o aprendizado por reforço como algoritmo principal.

2 Aprendizado por Reforço VS Aprendizado Supervisionado

Visto que a aprendizagem supervisionada é o algoritmo principal, por que a OpenAI escolheu a aprendizagem por reforço? Aqui apresentamos primeiro os conceitos dos dois.

A aprendizagem supervisionada refere-se a um algoritmo que aprende um mapeamento entre entradas e saídas a partir de exemplos fornecidos pelo usuário. Por exemplo, muitas vezes descobrimos que alguns e-mails são bloqueados automaticamente e colocados na lixeira. Então, como o sistema avalia se um e-mail é spam? Isso usa aprendizado supervisionado. Primeiro, os engenheiros precisam alimentar o algoritmo com uma grande quantidade de dados rotulados. Neste exemplo, um e-mail pode ser usado como entrada, e os resultados de saída correspondentes são de dois tipos: spam e não spam (Sim/Não). , isto é, rótulo). Suponha que alimentamos 100.000 dados, o algoritmo aprenderá as características do spam com base nesses 100.000 dados. Neste momento, quando inserirmos um novo e-mail nele, ele julgará se o novo e-mail atende às características de spam com base no modelo previamente treinado, decidindo assim se irá interceptá-lo.

O aprendizado por reforço é mais como um mecanismo de feedback de recompensa. Na aprendizagem por reforço, fornecemos informações para o modelo, mas não fornecemos a resposta correta. O modelo precisa gerar a própria resposta. Em seguida, peça a uma pessoa real que leia a resposta gerada e dê uma pontuação para a resposta (por exemplo, 80 pontos em uma escala de 1 a 100). O objetivo do modelo é como responder para obter uma pontuação alta. Outro mecanismo é o modelo gerar múltiplas respostas, e um mecanismo de pontuação informa ao modelo qual resposta é a melhor. O objetivo do modelo é aprender a gerar respostas com pontuação alta em vez de respostas com pontuação baixa. Em ambos os casos, o modelo aprende gerando respostas e recebendo feedback.

Em contrapartida, a aprendizagem supervisionada permite apenas feedback positivo (alimentamos o modelo com uma série de perguntas e suas respostas corretas), enquanto a aprendizagem por reforço permite feedback negativo (o modelo pode gerar respostas erradas e obter feedback dizendo “esta resposta não é boa, da próxima vez Pare de fazer isso”). O feedback negativo é tão importante quanto o feedback positivo, como pessoas reais descobriram durante o processo de aprendizagem. É provavelmente por isso que a OpenAI escolheu o treinamento RLHF (ou seja, treinamento de aprendizagem por reforço baseado em feedback humano).

Pense bem, isso é muito parecido com a maneira como os humanos aprendem?Quando aprendemos, também adquirimos muito conhecimento, depois testamos a situação de aprendizagem e, finalmente, aplicamos o conhecimento adquirido a novos cenários (transferência de aprendizagem, que também é um das bases do GPT). Portanto, esta rodada de AIGC também é considerada infinitamente próxima da AGI (Inteligência Geral Artificial).

3 Caminho para AGI

Simplificando, AGI é uma inteligência artificial que tem a mesma inteligência que os humanos, ou supera os humanos. Você acha que o ChatGPT já tem esse sabor? Mas como julgar a inteligência da inteligência artificial?

Em 1980, John Searle propôs um famoso experimento mental “Sala Chinesa”. O processo experimental pode ser expresso da seguinte forma:

Trancar uma pessoa que não sabe chinês e só fala inglês em uma sala fechada com apenas uma pequena janela. Há um manual com traduções para chinês e inglês na sala. Há papel manuscrito e lápis suficientes na sala. Ao mesmo tempo, pedaços de papel escritos em chinês foram enviados para a sala pela pequena janela. As pessoas presentes podem usar seu livro para traduzir as palavras e responder em chinês. Embora ele não fale chinês, por meio desse processo, a pessoa na sala pode fazer qualquer pessoa fora da sala pensar que ele fala chinês fluentemente.

Um manual tão grande representa obviamente um nível muito baixo de inteligência, porque uma vez que uma pessoa encontre um vocabulário que não esteja no manual, ela não será capaz de lidar com ele. Se conseguirmos extrair algumas gramáticas e regras da grande quantidade de dados, o manual poderá ficar mais compacto, mas o sistema será mais inteligente (melhor capacidade de generalização).

Quanto mais grosso o manual, mais fraca é a inteligência; quanto mais fino o manual, mais forte é a inteligência. É como quando uma empresa contrata uma pessoa, quanto mais capaz você for, menos precisará explicar; quanto menos capaz, mais precisará explicar.

O exemplo acima é uma boa explicação de por que a compressão é inteligência: se você quiser melhorar a inteligência da IA, poderá extrair as informações eficazes necessárias generalizando as regras de extração. Dessa forma, você pode entender o que os pesquisadores de PNL costumam dizer: **O processo de treinamento do GPT é uma compactação de dados sem perdas. **

4 Compressão é inteligência

Em 28 de fevereiro, Jack Rae, um desenvolvedor central do OpenAI, compartilhou um tópico chamado Compression for AGI durante uma entrevista no Stanford MLSys Seminar. O ponto de vista central é: **O objetivo do modelo básico AGI é maximizar o efeito informações Compressão máxima sem perdas. **E também fornece uma análise lógica de por que esse objetivo é razoável e como a OpenAI criou o ChatGPT sob esse objetivo.

Generalização é o processo de passar do conhecido para o desconhecido. Conforme mostrado na figura, a questão central que nos preocupa é como aprender os padrões de dados desconhecidos e fazer previsões (cinza) a partir dos dados existentes (amarelo). Quanto mais precisamente um modelo puder prever as partes cinzentas, mais forte será sua capacidade de generalização.

Imagine um software de computador que precisa traduzir do inglês para o chinês. Se ele traduzir todas as frases possíveis para o chinês consultando um dicionário, então podemos considerar que ele tem o pior entendimento da tarefa de tradução, porque qualquer frase que apareça fora do dicionário será ser Nenhum dos dois pode ser traduzido. Mas se o dicionário for destilado em um conjunto menor de regras (como alguma gramática ou vocabulário básico), então ele terá melhor capacidade de compreensão, para que possamos pontuar o conjunto de regras de acordo com sua compactação. Na verdade, se pudermos comprimi-lo ao comprimento mínimo de descrição, então poderemos dizer que ele tem o melhor entendimento para a tarefa de tradução.

Para um determinado conjunto de dados D, podemos compactá-lo usando um modelo generativo f. Na figura |D| representa a compactação sem perdas do conjunto de dados D. O tamanho da compactação sem perdas pode ser expresso como o logaritmo negativo do modelo generativo avaliado em D. Em seguida, adicione o comprimento mínimo da descrição da função estimada.

Então, como o modelo grande consegue compactação sem perdas? Precisamos primeiro entender a natureza do GPT. GPT é na verdade um grande dicionário baseado no Transformer, e sua essência é Next Token Prediction (raciocínio abaixo). Simplificando, consiste em prever a última palavra ou frase possível após uma determinada sequência de texto. Por exemplo, se eu disser: “Você dormiu bem ontem à noite”, antes de terminar de falar, você saberá que tenho uma grande probabilidade de dizer: “Você dormiu bem ontem à noite?” Após raciocinar, continuarei a dizer " Ok" O processo é o seguinte raciocínio.

Você poderia dizer que é óbvio que o que é aprendido dessa maneira não é a relação estatística superficial entre as palavras. Como surgiu a inteligência?

Suponha que você precise transmitir alguns dados da distante galáxia Centauro para a Terra, mas a largura de banda é muito preciosa, você precisa usar o mínimo de largura de banda para transmitir dados e garantir que a outra extremidade possa restaurar seus dados sem perdas. Você pode usar este método:

Primeiro, prepare um código de treinamento de modelo de linguagem que gerará o mesmo modelo de rede neural sempre que você executá-lo.

Em segundo lugar, execute o programa de treinamento em N dados e, no tempo t, retire a probabilidade de Xt da distribuição de probabilidade Pt de todos os tokens e use a codificação aritmética para convertê-la em um decimal binário, que é registrado como Zt. Por analogia, obtém-se uma lista composta por Z1, Z2, Z3,…, Zn.

Se você deseja restaurar esses N dados sem perdas na outra extremidade, você só precisa transmitir os dois conteúdos a seguir: a lista de Z1-Zn e o código de treinamento do modelo de linguagem.

Ao decodificar na extremidade receptora, inicializamos a rede com os códigos de treinamento recebidos. No carimbo de data/hora t, o modelo usa Pt para realizar a decodificação aritmética em Zt para obter Xt. Deve-se notar que a distribuição de probabilidade do token Pt no tempo t é exatamente a mesma no terminal de envio e no terminal de recebimento.

Todo o processo é um processo de compactação de dados sem perdas. Com base no código de treinamento do modelo de linguagem, compactamos N pedaços de dados em uma sequência de números Z1-Zn. O tamanho de cada dado compactado é -logp(x). Deve-se notar que em todo o processo não precisamos enviar toda a rede neural (centenas de centenas de bilhões de parâmetros).

Portanto, o número total de bits usados para compactar o conjunto de dados D usando um modelo de linguagem pode ser expresso como a seguinte fórmula:

O comprimento da descrição de um modelo baseado em transformador é aproximadamente entre 100kb ~ 1MB (todo o tamanho de código necessário). Os parâmetros do modelo não fazem parte do comprimento da descrição do modelo.

Muitas vezes sentimos que o chatgpt está cheio de erros em questões factuais. Por exemplo, quando questionado de qual cidade é Liu Cixin, o modelo ainda dará respostas erradas. Isso ocorre porque durante o processo de treinamento, o modelo memoriza lentamente alguns dados de treinamento. Os parâmetros do modelo podem ser considerados aproximadamente como uma compactação de dados com perdas para os dados de treinamento. Isso também é o que Ted Jiang disse em “ChatGPT é todo o texto em a Internet.” Imagem desfocada" significa. LLM é uma compactação sem perdas do conjunto de dados original, que pode ser rigorosamente provada matematicamente. A compressão com perdas que Ted Chiang disse é uma analogia literária muito abstrata.

Lembre-se dessa imagem, o que nos importa não é o conteúdo dentro do círculo amarelo, mas a parte cinza fora, porque nos preocupamos em usar menos conteúdo para obter mais conhecimento, ou seja, capacidade de generalização. Comparada com os parâmetros de heap, a generalização é inteligente!

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos