Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Centro de Património VIP
Aumento de património premium
Gestão de património privado
Alocação de ativos premium
Fundo Quant
Estratégias quant de topo
Staking
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem inteligente
New
Alavancagem sem liquidação
Cunhagem de GUSD
Cunhe GUSD para retornos RWA
O caminho para AGI: a lógica por trás do ChatGPT, compressão é inteligência
No mês passado, no acampamento de código feminino de Shanhaiwu, como palestrante, compartilhei uma edição de “O Caminho para AGI: Compressão é Inteligência” e descobri que todos estavam muito interessados em AIGC e modelos grandes, mas muitos amigos não entendiam isso em o tempo. , então escrevi esta explicação vernácula. Espero que possa ser útil para aqueles que estão interessados no AIGC. Se você precisar de uma compreensão mais aprofundada, consulte o discurso principal de Jack Rae (membro principal da equipe OpenAI) em Stanford depois de ler este artigo: Compression for AGI (esta também é a referência principal deste artigo.
1 Vamos começar com aprendizado de máquina
O aprendizado de máquina (aprendizado de máquina) pode ser desconhecido para amigos que não têm experiência em informática. Mas todos os aspectos de nossas vidas já são cobertos pelo aprendizado de máquina. Por exemplo, quando abrimos Zhihu, Douyin, Xiaohongshu e outros softwares, o sistema recomendará automaticamente conteúdo que possa nos interessar; quando acabei de conversar com meus amigos sobre a compra de uma determinada marca de saia, abri o Taobao e descobri que Pesquisar as recomendações tornaram-se a marca; os sistemas de e-mail bloquearão automaticamente o spam para nós; as câmeras de trânsito tiram fotos dos motoristas para inferir se há violações. Todos eles se beneficiam do aprendizado de máquina.
Então, o que exatamente é aprendizado de máquina? A teoria mais antiga de aprendizado de máquina foi proposta por Bayes no teorema de mesmo nome publicado em 1783. O teorema de Bayes está aprendendo com dados de treinamento para fazer as melhores previsões possíveis sobre dados novos e invisíveis. Para ser franco, é o que dizemos “por analogia”.
É a disciplina que permite que os computadores aprendam por si próprios, sem serem explicitamente programados (Arthur, 1959), e é um subcampo da inteligência artificial. Algumas coisas podemos fazer por meio de programação explícita, como calcular 188 elevado à 12ª potência ou a distância mais curta de a a b. Mas existem alguns problemas com os quais a programação explícita não pode nos ajudar.
Por exemplo, esperamos que o computador possa se tornar um excelente jogador de Go. Podemos programar o computador para deixá-lo jogar xadrez sozinho. Depois de jogar 10.000 vezes, o computador pode observar que, em um final de jogo, a taxa de vitórias de uma determinada posição for maior que Elsewhere, é onde o programa escolherá. Devido ao poderoso poder computacional do computador, ele pode completar inúmeros jogos em um curto período de tempo, então saberá cada vez mais como vencer e, eventualmente, se tornará um jogador de xadrez que supera os humanos. Deixar a máquina aprender sozinha para encontrar a melhor solução é o processo de aprendizado de máquina, mas o que exatamente a máquina aprendeu? Esta é uma caixa preta, só podemos obter uma saída da entrada.
Os algoritmos de aprendizado de máquina podem ser divididos em quatro tipos de acordo com os métodos de aprendizagem: Aprendizagem supervisionada, Aprendizagem não supervisionada, Aprendizagem semissupervisionada e Aprendizagem por reforço. O mais utilizado é o aprendizado supervisionado, mas o ChatGPT escolheu o aprendizado por reforço como algoritmo principal.
2 Aprendizado por Reforço VS Aprendizado Supervisionado
Visto que a aprendizagem supervisionada é o algoritmo principal, por que a OpenAI escolheu a aprendizagem por reforço? Aqui apresentamos primeiro os conceitos dos dois.
A aprendizagem supervisionada refere-se a um algoritmo que aprende um mapeamento entre entradas e saídas a partir de exemplos fornecidos pelo usuário. Por exemplo, muitas vezes descobrimos que alguns e-mails são bloqueados automaticamente e colocados na lixeira. Então, como o sistema avalia se um e-mail é spam? Isso usa aprendizado supervisionado. Primeiro, os engenheiros precisam alimentar o algoritmo com uma grande quantidade de dados rotulados. Neste exemplo, um e-mail pode ser usado como entrada, e os resultados de saída correspondentes são de dois tipos: spam e não spam (Sim/Não). , isto é, rótulo). Suponha que alimentamos 100.000 dados, o algoritmo aprenderá as características do spam com base nesses 100.000 dados. Neste momento, quando inserirmos um novo e-mail nele, ele julgará se o novo e-mail atende às características de spam com base no modelo previamente treinado, decidindo assim se irá interceptá-lo.
O aprendizado por reforço é mais como um mecanismo de feedback de recompensa. Na aprendizagem por reforço, fornecemos informações para o modelo, mas não fornecemos a resposta correta. O modelo precisa gerar a própria resposta. Em seguida, peça a uma pessoa real que leia a resposta gerada e dê uma pontuação para a resposta (por exemplo, 80 pontos em uma escala de 1 a 100). O objetivo do modelo é como responder para obter uma pontuação alta. Outro mecanismo é o modelo gerar múltiplas respostas, e um mecanismo de pontuação informa ao modelo qual resposta é a melhor. O objetivo do modelo é aprender a gerar respostas com pontuação alta em vez de respostas com pontuação baixa. Em ambos os casos, o modelo aprende gerando respostas e recebendo feedback.
Em contrapartida, a aprendizagem supervisionada permite apenas feedback positivo (alimentamos o modelo com uma série de perguntas e suas respostas corretas), enquanto a aprendizagem por reforço permite feedback negativo (o modelo pode gerar respostas erradas e obter feedback dizendo “esta resposta não é boa, da próxima vez Pare de fazer isso”). O feedback negativo é tão importante quanto o feedback positivo, como pessoas reais descobriram durante o processo de aprendizagem. É provavelmente por isso que a OpenAI escolheu o treinamento RLHF (ou seja, treinamento de aprendizagem por reforço baseado em feedback humano).
Pense bem, isso é muito parecido com a maneira como os humanos aprendem?Quando aprendemos, também adquirimos muito conhecimento, depois testamos a situação de aprendizagem e, finalmente, aplicamos o conhecimento adquirido a novos cenários (transferência de aprendizagem, que também é um das bases do GPT). Portanto, esta rodada de AIGC também é considerada infinitamente próxima da AGI (Inteligência Geral Artificial).
3 Caminho para AGI
Simplificando, AGI é uma inteligência artificial que tem a mesma inteligência que os humanos, ou supera os humanos. Você acha que o ChatGPT já tem esse sabor? Mas como julgar a inteligência da inteligência artificial?
Em 1980, John Searle propôs um famoso experimento mental “Sala Chinesa”. O processo experimental pode ser expresso da seguinte forma:
Um manual tão grande representa obviamente um nível muito baixo de inteligência, porque uma vez que uma pessoa encontre um vocabulário que não esteja no manual, ela não será capaz de lidar com ele. Se conseguirmos extrair algumas gramáticas e regras da grande quantidade de dados, o manual poderá ficar mais compacto, mas o sistema será mais inteligente (melhor capacidade de generalização).
Quanto mais grosso o manual, mais fraca é a inteligência; quanto mais fino o manual, mais forte é a inteligência. É como quando uma empresa contrata uma pessoa, quanto mais capaz você for, menos precisará explicar; quanto menos capaz, mais precisará explicar.
O exemplo acima é uma boa explicação de por que a compressão é inteligência: se você quiser melhorar a inteligência da IA, poderá extrair as informações eficazes necessárias generalizando as regras de extração. Dessa forma, você pode entender o que os pesquisadores de PNL costumam dizer: **O processo de treinamento do GPT é uma compactação de dados sem perdas. **
4 Compressão é inteligência
Em 28 de fevereiro, Jack Rae, um desenvolvedor central do OpenAI, compartilhou um tópico chamado Compression for AGI durante uma entrevista no Stanford MLSys Seminar. O ponto de vista central é: **O objetivo do modelo básico AGI é maximizar o efeito informações Compressão máxima sem perdas. **E também fornece uma análise lógica de por que esse objetivo é razoável e como a OpenAI criou o ChatGPT sob esse objetivo.
Generalização é o processo de passar do conhecido para o desconhecido. Conforme mostrado na figura, a questão central que nos preocupa é como aprender os padrões de dados desconhecidos e fazer previsões (cinza) a partir dos dados existentes (amarelo). Quanto mais precisamente um modelo puder prever as partes cinzentas, mais forte será sua capacidade de generalização.
Imagine um software de computador que precisa traduzir do inglês para o chinês. Se ele traduzir todas as frases possíveis para o chinês consultando um dicionário, então podemos considerar que ele tem o pior entendimento da tarefa de tradução, porque qualquer frase que apareça fora do dicionário será ser Nenhum dos dois pode ser traduzido. Mas se o dicionário for destilado em um conjunto menor de regras (como alguma gramática ou vocabulário básico), então ele terá melhor capacidade de compreensão, para que possamos pontuar o conjunto de regras de acordo com sua compactação. Na verdade, se pudermos comprimi-lo ao comprimento mínimo de descrição, então poderemos dizer que ele tem o melhor entendimento para a tarefa de tradução.
Para um determinado conjunto de dados D, podemos compactá-lo usando um modelo generativo f. Na figura |D| representa a compactação sem perdas do conjunto de dados D. O tamanho da compactação sem perdas pode ser expresso como o logaritmo negativo do modelo generativo avaliado em D. Em seguida, adicione o comprimento mínimo da descrição da função estimada.
Então, como o modelo grande consegue compactação sem perdas? Precisamos primeiro entender a natureza do GPT. GPT é na verdade um grande dicionário baseado no Transformer, e sua essência é Next Token Prediction (raciocínio abaixo). Simplificando, consiste em prever a última palavra ou frase possível após uma determinada sequência de texto. Por exemplo, se eu disser: “Você dormiu bem ontem à noite”, antes de terminar de falar, você saberá que tenho uma grande probabilidade de dizer: “Você dormiu bem ontem à noite?” Após raciocinar, continuarei a dizer " Ok" O processo é o seguinte raciocínio.
Você poderia dizer que é óbvio que o que é aprendido dessa maneira não é a relação estatística superficial entre as palavras. Como surgiu a inteligência?
Suponha que você precise transmitir alguns dados da distante galáxia Centauro para a Terra, mas a largura de banda é muito preciosa, você precisa usar o mínimo de largura de banda para transmitir dados e garantir que a outra extremidade possa restaurar seus dados sem perdas. Você pode usar este método:
Primeiro, prepare um código de treinamento de modelo de linguagem que gerará o mesmo modelo de rede neural sempre que você executá-lo.
Em segundo lugar, execute o programa de treinamento em N dados e, no tempo t, retire a probabilidade de Xt da distribuição de probabilidade Pt de todos os tokens e use a codificação aritmética para convertê-la em um decimal binário, que é registrado como Zt. Por analogia, obtém-se uma lista composta por Z1, Z2, Z3,…, Zn.
Se você deseja restaurar esses N dados sem perdas na outra extremidade, você só precisa transmitir os dois conteúdos a seguir: a lista de Z1-Zn e o código de treinamento do modelo de linguagem.
Ao decodificar na extremidade receptora, inicializamos a rede com os códigos de treinamento recebidos. No carimbo de data/hora t, o modelo usa Pt para realizar a decodificação aritmética em Zt para obter Xt. Deve-se notar que a distribuição de probabilidade do token Pt no tempo t é exatamente a mesma no terminal de envio e no terminal de recebimento.
Todo o processo é um processo de compactação de dados sem perdas. Com base no código de treinamento do modelo de linguagem, compactamos N pedaços de dados em uma sequência de números Z1-Zn. O tamanho de cada dado compactado é -logp(x). Deve-se notar que em todo o processo não precisamos enviar toda a rede neural (centenas de centenas de bilhões de parâmetros).
Portanto, o número total de bits usados para compactar o conjunto de dados D usando um modelo de linguagem pode ser expresso como a seguinte fórmula:
O comprimento da descrição de um modelo baseado em transformador é aproximadamente entre 100kb ~ 1MB (todo o tamanho de código necessário). Os parâmetros do modelo não fazem parte do comprimento da descrição do modelo.
Muitas vezes sentimos que o chatgpt está cheio de erros em questões factuais. Por exemplo, quando questionado de qual cidade é Liu Cixin, o modelo ainda dará respostas erradas. Isso ocorre porque durante o processo de treinamento, o modelo memoriza lentamente alguns dados de treinamento. Os parâmetros do modelo podem ser considerados aproximadamente como uma compactação de dados com perdas para os dados de treinamento. Isso também é o que Ted Jiang disse em “ChatGPT é todo o texto em a Internet.” Imagem desfocada" significa. LLM é uma compactação sem perdas do conjunto de dados original, que pode ser rigorosamente provada matematicamente. A compressão com perdas que Ted Chiang disse é uma analogia literária muito abstrata.
Lembre-se dessa imagem, o que nos importa não é o conteúdo dentro do círculo amarelo, mas a parte cinza fora, porque nos preocupamos em usar menos conteúdo para obter mais conhecimento, ou seja, capacidade de generalização. Comparada com os parâmetros de heap, a generalização é inteligente!