La route vers l'AGI : la logique derrière ChatGPT, la compression est l'intelligence

2023-09-04 08:19:52

Je pense, donc je suis

Le mois dernier, au camp de code des femmes à Shanhaiwu, j’ai partagé un numéro de “The Road to AGI: Compression is Intelligence” en tant que conférencier. J’ai découvert que tout le monde était très intéressé par l’AIGC et les grands modèles, mais de nombreux amis ne le comprenaient pas. le moment. , j’ai donc écrit cette explication vernaculaire. J’espère que cela sera utile à vous qui êtes intéressé par l’AIGC. Si vous avez besoin d’une compréhension plus approfondie, veuillez vous référer à Jack Rae (un membre principal de l’équipe OpenAI) à Stanford après avoir lu ce discours d’ouverture : Compression pour AGI (c’est également la référence principale de cet article.

1 Commençons par l’apprentissage automatique

L’apprentissage automatique peut être peu familier à ceux qui n’ont pas de formation en informatique. Mais tous les aspects de nos vies ont été couverts par l’apprentissage automatique. Par exemple, lorsque nous ouvrons Zhihu, Douyin, Xiaohongshu et d’autres logiciels, le système recommande automatiquement le contenu qui pourrait nous intéresser ; lorsque je viens de discuter avec mes amis au sujet de l’achat d’une certaine marque de jupe, j’ai ouvert Taobao et j’ai découvert que Rechercher les recommandations sont devenues la marque ; les systèmes de messagerie bloquent automatiquement le spam pour nous ; les caméras de circulation prennent des photos des conducteurs pour déduire s’il y a des violations. Tous bénéficient de l’apprentissage automatique.

Alors, qu’est-ce que l’apprentissage automatique exactement ? La première théorie de l’apprentissage automatique a été proposée par Bayes dans le théorème du même nom publié en 1783. Le théorème de Bayes apprend à partir des données d’entraînement afin de faire les meilleures prédictions possibles sur de nouvelles données invisibles. Pour parler franchement, c’est ce qu’on dit « par analogie ».

C’est une discipline qui permet aux ordinateurs d’apprendre par eux-mêmes sans être explicitement programmés (Arthur, 1959), et constitue un sous-domaine de l’intelligence artificielle. Il y a certaines choses que nous pouvons faire grâce à la programmation explicite, comme calculer 188 à la puissance 12 ou la distance la plus courte de a à b. Mais il existe certains problèmes pour lesquels la programmation explicite ne peut pas nous aider.

Par exemple, nous espérons que l’ordinateur pourra devenir un excellent joueur de Go. Nous pouvons programmer l’ordinateur pour qu’il joue aux échecs avec lui-même. Après avoir joué 10 000 fois, l’ordinateur peut observer qu’en fin de partie, le taux de victoire d’une certaine position est supérieur à tout autre emplacement, c’est là que le programme choisira. Grâce à la puissante puissance de calcul de l’ordinateur, il peut terminer d’innombrables parties en peu de temps, il saura donc de plus en plus comment gagner et deviendra finalement un joueur d’échecs qui surpasse les humains. Laisser la machine apprendre par elle-même pour trouver la meilleure solution est le processus d’apprentissage automatique, mais qu’a appris exactement la machine ? Il s’agit d’une boîte noire, nous ne pouvons obtenir un résultat de sortie qu’à partir de l’entrée.

Les algorithmes d’apprentissage automatique peuvent être divisés en quatre types selon les méthodes d’apprentissage : apprentissage supervisé, apprentissage non supervisé, apprentissage semi-supervisé et apprentissage par renforcement. Le plus couramment utilisé est l’apprentissage supervisé, mais ChatGPT a choisi l’apprentissage par renforcement comme algorithme de base.

2 Apprentissage par renforcement VS apprentissage supervisé

Puisque l’apprentissage supervisé est l’algorithme dominant, pourquoi OpenAI a-t-il choisi l’apprentissage par renforcement ? Ici, nous vous présentons d’abord les concepts des deux.

L’apprentissage supervisé fait référence à des algorithmes qui apprennent les mappages entre les entrées et les sorties, en apprenant à partir d’exemples fournis par l’utilisateur. Par exemple, nous constatons souvent que certains e-mails sont automatiquement bloqués et placés dans la corbeille. Alors, comment le système détermine-t-il si un e-mail est du spam ? Cela utilise l’apprentissage supervisé. Tout d’abord, les ingénieurs doivent fournir une grande quantité de données étiquetées à l’algorithme. Dans cet exemple, un e-mail peut être utilisé comme entrée, et il existe deux types de résultats de sortie correspondants, qui sont des courriers indésirables et non du spam. emails (Oui/Non, le label). Supposons que nous fournissions 100 000 éléments de données, l’algorithme apprendra les caractéristiques du spam en fonction de ces 100 000 éléments de données. À ce stade, lorsque nous y entrons un tout nouvel e-mail, il jugera si le nouvel e-mail répond aux caractéristiques du spam selon le modèle précédemment formé, afin de décider s’il doit l’intercepter.

L’apprentissage par renforcement est davantage un mécanisme de récompense-rétroaction. Dans l’apprentissage par renforcement, nous fournissons une entrée au modèle, mais nous ne fournissons pas la bonne réponse. Le modèle doit générer lui-même la réponse. Demandez ensuite à une personne réelle de lire la réponse générée et de donner un score à la réponse (par exemple, 1-100 équivaut à 80 points). Le but du modèle est de savoir comment répondre pour obtenir un score élevé. Un autre mécanisme est que le modèle génère plusieurs réponses et que le mécanisme de notation indique au modèle quelle réponse est la meilleure. L’objectif du modèle est d’apprendre à générer des réponses avec des scores élevés, et non des réponses avec des scores faibles. Dans les deux cas, le modèle apprend en générant des réponses et en recevant des commentaires.

En revanche, l’apprentissage supervisé permet uniquement un feedback positif (nous transmettons au modèle une série de questions et leurs réponses correctes), tandis que l’apprentissage par renforcement permet un feedback négatif (le modèle peut générer de mauvaises réponses et recevoir un feedback disant “cette réponse n’est pas bonne, la prochaine fois”. Arrête de faire ça"). Les commentaires négatifs sont tout aussi importants que les commentaires positifs, comme de vraies personnes l’ont découvert au cours du processus d’apprentissage. C’est probablement la raison pour laquelle OpenAI a choisi la formation RLHF (c’est-à-dire une formation d’apprentissage par renforcement basée sur le feedback humain).

Réfléchissez bien, est-ce très similaire à la façon dont les humains apprennent ? Lorsque nous apprenons, nous acquérons également une grande quantité de connaissances, puis passons des examens pour tester la situation d’apprentissage, et enfin appliquons les connaissances acquises à de nouveaux scénarios (apprentissage par transfert, qui est aussi une des bases du GPT). Par conséquent, ce cycle d’AIGC est également considéré comme infiniment proche de l’AGI (Artificial General Intelligence).

3 En route vers l’AGI

En termes simples, l’AGI est une intelligence artificielle qui possède la même intelligence que les humains, voire la surpasse. Pensez-vous que ChatGPT a déjà cette saveur ? Mais comment juger de l’intelligence de l’intelligence artificielle ?

En 1980, John Searle a proposé une célèbre expérience de pensée « Chinese Room ». Le processus expérimental peut être décrit comme suit :

Enfermer une personne qui n’a aucune connaissance du chinois et ne parle que l’anglais dans une pièce fermée avec une seule petite fenêtre. Il y a un manuel avec des traductions en chinois et en anglais dans la salle. Il y a suffisamment de papier manuscrit et de crayons dans la pièce. Au même moment, des morceaux de papier écrits en chinois étaient envoyés dans la pièce par la petite fenêtre. Les personnes présentes dans la salle peuvent utiliser son livre pour traduire ces textes et répondre en chinois. Bien qu’il ne parle pas du tout chinois, grâce à ce processus, les personnes présentes dans la pièce peuvent faire croire à toute personne extérieure à la pièce qu’il parle couramment chinois.

Un manuel aussi énorme représente évidemment un très faible niveau d’intelligence, car une fois que la personne rencontre un vocabulaire qui n’est pas dans le manuel, elle ne sera pas en mesure d’y faire face. Si nous pouvons extraire quelques grammaires et règles de la grande quantité de données, le manuel peut devenir plus compact, mais le système sera plus intelligent (meilleure capacité de généralisation).

Plus le manuel est épais, plus l’intelligence est faible ; plus le manuel est fin, plus l’intelligence est forte. C’est comme si l’entreprise embauchait une personne qui semble plus capable, moins vous avez besoin d’expliquer, et plus la capacité est faible, plus vous avez besoin d’expliquer.

L’exemple ci-dessus explique bien pourquoi la compression est une intelligence : si vous souhaitez améliorer l’intelligence de l’IA, vous pouvez extraire les informations efficaces requises en généralisant les règles d’extraction. De cette façon, vous pouvez comprendre ce que disent souvent les chercheurs en PNL : **Le processus de formation du GPT est une compression des données sans perte. **

4 La compression est une intelligence

Le 28 février, Jack Rae, le chercheur principal d’OpenAI, a partagé un sujet appelé Compression pour AGI lors de sa participation à une interview au séminaire MLSys de Stanford. Son point de vue principal est le suivant : **L’objectif du modèle de base d’AGI est pour obtenir le maximum d’informations efficaces Compression maximale sans perte. **En même temps, il donne une analyse logique des raisons pour lesquelles cet objectif est raisonnable et de la manière dont OpenAI a créé ChatGPT dans le cadre de cet objectif.

La généralisation est le processus d’extrapolation du connu vers l’inconnu. Comme le montre la figure, le problème principal qui nous intéresse est de savoir comment apprendre les modèles de données inconnues et faire des prédictions (gris) à partir des données existantes (jaune). Plus un modèle peut prédire avec précision les parties grises, plus sa capacité de généralisation est forte.

Imaginez un logiciel informatique qui doit traduire l’anglais vers le chinois. S’il traduit toutes les expressions possibles en chinois en consultant un dictionnaire, alors nous pouvons considérer qu’il a la pire compréhension de la tâche de traduction, car toute expression qui apparaît en dehors du dictionnaire sera be Ni l’un ni l’autre n’a pu être traduit. Mais si le dictionnaire est distillé en un ensemble plus petit de règles (comme de la grammaire ou du vocabulaire de base), il aura alors une meilleure capacité de compréhension, nous pourrons donc noter l’ensemble de règles en fonction de son degré de compression. En fait, si nous pouvons le compresser à la longueur minimale de description, nous pouvons alors dire qu’il comprend le mieux la tâche de traduction.

Pour un ensemble de données D donné, nous pouvons le compresser à l’aide d’un modèle génératif F. Dans la figure | D | représente la compression sans perte de l’ensemble de données D. La taille de la compression sans perte peut être exprimée comme le logarithme négatif du modèle génératif. évalué sur D. Ajoutez ensuite la longueur minimale de description de la fonction estimée.

Alors, comment les grands modèles parviennent-ils à une compression sans perte ? Nous devons d’abord comprendre la nature du GPT. GPT est en fait un grand dictionnaire basé sur Transformer, qui est essentiellement Next Token Prediction (raisonnement ci-dessous). En termes simples, il s’agit de prédire le dernier mot ou la dernière phrase susceptible d’apparaître après une séquence de texte donnée. Par exemple, si je dis : « Avez-vous bien dormi la nuit dernière ? » avant de finir de parler, vous saurez que je dirai très probablement : « Avez-vous bien dormi la nuit dernière ? » Vous pouvez en déduire que je continuerai à dire : « Avez-vous bien dormi la nuit dernière ? » " D’accord ? " Le processus est le raisonnement suivant.

On pourrait dire qu’il est évident que ce qu’on apprend de cette manière n’est pas seulement la relation statistique superficielle entre les mots ? Comment est née l’intelligence ?

Supposons que vous ayez besoin de transmettre certaines données vers la Terre depuis la lointaine galaxie du Centaure, mais que la bande passante soit très précieuse, vous devez utiliser le moins de bande passante possible pour transmettre des données et vous assurer que l’autre extrémité peut restaurer vos données sans perte. Vous pouvez utiliser cette approche :

Tout d’abord, préparez un code de formation de modèle de langage qui générera le même modèle de réseau neuronal à chaque fois que vous l’exécuterez.

Deuxièmement, exécutez le programme de formation sur des données N. Au temps t, retirez la probabilité de Xt sous toutes les distributions de probabilité de jetons Pt et utilisez le codage arithmétique pour la convertir en une décimale binaire, enregistrée sous la forme Zt. Par analogie, on obtient une liste composée de Z1, Z2, Z3, …, Zn.

Si vous souhaitez restaurer ces N données sans perte à l’autre bout, il vous suffit de transférer les deux contenus suivants : la liste des Z1-Zn et le code de formation du modèle de langage.

Lors du décodage à la réception, nous initialisons le réseau avec les codes de formation reçus. À l’horodatage t, le modèle utilise Pt pour décoder arithmétiquement Zt afin d’obtenir Xt. Il convient de noter que la distribution de probabilité du jeton Pt au temps t est totalement cohérente chez l’expéditeur et le destinataire.

L’ensemble du processus est un processus de compression de données sans perte.Sur la base du code d’entraînement du modèle de langage, nous compressons N éléments de données en une série de nombres de Z1 à Zn, et la taille de chaque donnée compressée est -logp(x). Il convient de noter que dans l’ensemble du processus, nous n’avons pas besoin d’envoyer l’intégralité du réseau neuronal (des centaines de centaines de milliards de paramètres).

Par conséquent, le nombre total de bits utilisés pour compresser l’ensemble de données D à l’aide d’un modèle de langage peut être exprimé par la formule suivante :

La longueur de description d’un modèle basé sur un transformateur est d’environ 100 Ko ~ 1 Mo (toute la taille de code nécessaire). Les paramètres du modèle n’appartiennent pas à la longueur de description du modèle.

On a souvent l’impression que chatgpt est plein d’erreurs sur des questions factuelles. Par exemple, si on lui demande de quelle ville est originaire Liu Cixin, le modèle donnera toujours la mauvaise réponse. En effet, pendant le processus de formation, le modèle mémorise lentement certaines données de formation et les paramètres du modèle peuvent être approximativement considérés comme une compression de données avec perte pour les données de formation. LLM est une compression sans perte de l’ensemble de données d’origine, qui est très spécifique et peut être rigoureusement prouvé mathématiquement. La compression avec perte mentionnée par Ted Chiang est une analogie littéraire très abstraite.

Rappelez-vous cette image, ce qui nous importe n’est pas le contenu à l’intérieur du cercle jaune, mais la partie grise à l’extérieur, car nous nous soucions de la façon d’utiliser moins de contenu pour obtenir plus de connaissances, c’est-à-dire la capacité de généralisation. La généralisation est une intelligence par rapport aux paramètres du tas !

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime