Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Les données humaines seront utilisées par OpenAI, alors quoi ?
“Bigger than big” (Plus gros que plus gros) est une publicité d’Apple cette année-là, qui est utilisée pour décrire le modèle de langage le plus en vogue dans le domaine de l’IA. Il semble qu’il n’y ait rien de mal à cela.
De milliards à des dizaines de milliards à des centaines de milliards, les paramètres du grand modèle sont progressivement devenus fous. En conséquence, la quantité de données utilisées pour former l’IA a également augmenté de façon exponentielle.
En prenant le GPT d’OpenAI comme exemple, de GPT-1 à GPT-3, son ensemble de données de formation a augmenté de façon exponentielle de 4,5 Go à 570 Go.
Lors de la conférence Data+AI organisée par Databricks il n’y a pas longtemps, Marc Andreessen, fondateur d’a16z, a estimé que les données massives accumulées par Internet au cours des deux dernières décennies sont une raison importante de l’essor de cette nouvelle vague d’IA, car le Le premier fournit au second des données d’entraînement utilisables.
Cependant, même si les internautes laissent beaucoup de données utiles ou inutiles sur Internet, pour la formation à l’IA, ces données peuvent toucher le fond.
Un article publié par Epoch, une organisation de recherche et de prévision en intelligence artificielle, prédit que les données textuelles de haute qualité seront épuisées entre 2023 et 2027.
Bien que l’équipe de recherche reconnaisse qu’il existe de sérieuses limitations dans les méthodes d’analyse et que les inexactitudes du modèle sont élevées, il est difficile de nier que la vitesse à laquelle l’IA consomme des ensembles de données est terrifiante.
Lorsque les données “humaines” seront épuisées, la formation à l’IA utilisera inévitablement le contenu produit par l’IA elle-même. Cependant, une telle “boucle interne” posera de grands défis.
Il n’y a pas si longtemps, des chercheurs de l’Université de Cambridge, de l’Université d’Oxford, de l’Université de Toronto et d’autres universités ont publié des articles soulignant que l’utilisation de contenu généré par l’IA comme IA de formation conduirait à l’effondrement du nouveau modèle. **
Alors, quelle est la raison du crash causé par les “données générées” pour la formation à l’IA ? Y a-t-il de l’aide?
01 Conséquences de la “consanguinité” de l’IA
Dans l’article intitulé “The Curse of Recursion: Training with Generated Data Makes Models Forget”, les chercheurs soulignent que “l’effondrement des modèles” est un processus dégénéré des modèles sur plusieurs générations**.
Les données générées par la précédente génération de modèles vont polluer la prochaine génération de modèles Après plusieurs générations d’“héritage” de modèles, ils percevront le monde de manière erronée.
L’effondrement du modèle se produit en deux étapes :
Les chercheurs ont d’abord formé les modèles GMM (Gaussian Mixture Model) et VAE (Variable Autoencoder) à partir de zéro. En prenant GMM comme exemple, l’extrême gauche de la figure ci-dessous est la distribution normale des données d’origine.
Comme vous pouvez le constater, le modèle correspond très bien aux données au départ. À la 50e itération, la distribution sous-jacente des données a commencé à être mal perçue. ** Lorsque l’itération arrive à 2000 fois, le modèle a convergé vers un très petit point, ce qui signifie que le modèle commence à produire régulièrement de mauvaises réponses **.
Afin de vérifier l’impact de la pré-formation sur les résultats expérimentaux, les chercheurs ont mené des expériences sur le LLM (Large Language Model) OPT-125m de 125 millions de paramètres développé par Meta.L’ensemble de données provient du wikitext2 de Wikipedia.
Contrairement aux petits modèles tels que GMM et VAE, le coût de la formation LLM à partir de zéro est très élevé, ils sont donc tous pré-formés. Les résultats expérimentaux sont les suivants :
On peut voir qu’au moment du modèle de 9e génération, le contenu de la sortie était complètement incompréhensible.
Ilia Shumailov, l’un des auteurs de l’article, a déclaré qu’au fil du temps, les erreurs dans les données générées par l’IA s’accumulent, et les principaux modèles entraînés sur ces données développent une vision encore plus déformée de la réalité.
02 Pourquoi le modèle plante-t-il ?
La principale raison de “l’effondrement du modèle” est que l’IA n’est pas une véritable intelligence. Derrière sa capacité à approximer “l’intelligence” se cache en fait une méthode statistique basée sur une grande quantité de données.
Fondamentalement, tous les algorithmes d’apprentissage automatique non supervisés suivent un schéma simple : ** À partir d’une série de données, entraînez un modèle capable de décrire les lois de ces données **.
Dans ce processus, les données avec une probabilité plus élevée dans l’ensemble d’apprentissage sont plus susceptibles d’être valorisées par le modèle, et les données avec une probabilité plus faible seront sous-estimées par le modèle.
Par exemple, supposons que nous devions enregistrer les résultats de 100 lancers de dés pour calculer la probabilité de chaque face. En théorie, la probabilité d’apparition de chaque visage est la même. Dans la vraie vie, en raison de la petite taille de l’échantillon, il peut y avoir plus de cas de 3 et 4. Mais pour le modèle, les données qu’il apprend sont que 3 et 4 ont une probabilité plus élevée d’apparaître, il a donc tendance à générer plus de résultats 3 et 4.
Une autre cause secondaire est l’erreur d’approximation de la fonction. Il est également facile à comprendre, car les fonctions réelles sont souvent très complexes.Dans les applications pratiques, les fonctions simplifiées sont souvent utilisées pour approximer les fonctions réelles, ce qui conduit à des erreurs.
03 Vous n’avez vraiment pas de chance ?
Inquiétude!
Alors, avec de moins en moins de données humaines, n’y a-t-il vraiment aucune chance pour une formation en IA ?
Non, il existe encore des moyens de résoudre le problème de l’épuisement des données pour l’IA d’entraînement :
“Isolement” des données
Alors que l’IA devient de plus en plus puissante, de plus en plus de personnes ont commencé à utiliser l’IA pour s’aider dans leur travail, et l’AIGC sur Internet a explosé, et les “ensembles de données humaines propres” peuvent devenir de plus en plus difficiles à trouver.
Daphne Ippolito, chercheur principal chez Google Brain, le département de recherche sur l’apprentissage profond de Google, a déclaré qu’à l’avenir, il deviendra de plus en plus difficile de trouver des données d’entraînement garanties de haute qualité sans intelligence artificielle.
C’est comme un ancêtre humain souffrant d’une maladie génétique à haut risque, mais avec une capacité de reproduction extrêmement forte. En peu de temps, il multiplia sa descendance aux quatre coins de la terre. Puis à un moment donné, une maladie génétique éclate et toute l’humanité disparaît.
Pour faire face à «l’effondrement du modèle», une approche proposée par l’équipe de recherche est «l’avantage du premier arrivé», c’est-à-dire conserver l’accès à des sources de données propres générées artificiellement, en séparant l’AIGC de celui-ci.
Dans le même temps, cela nécessite que de nombreuses communautés et entreprises unissent leurs forces pour protéger les données humaines de la pollution AIGC.
Pourtant, la rareté des données humaines signifie qu’il existe des opportunités lucratives pour le faire, et certaines entreprises le font déjà. Reddit a déclaré que cela augmenterait considérablement le coût d’accès à son API. Les dirigeants de la société ont déclaré que les changements étaient (en partie) une réponse aux sociétés d’intelligence artificielle qui volaient ses données. “La base de données de Reddit est vraiment précieuse”, a déclaré le fondateur et PDG de Reddit, Steve Huffman, au New York Times. “Mais nous n’avons pas besoin de donner toute cette valeur gratuitement à certaines des plus grandes entreprises du monde.”
Données synthétiques
Dans le même temps, professionnellement basé sur des données générées par l’IA, il a déjà été utilisé efficacement dans la formation à l’IA. Aux yeux de certains praticiens, s’inquiéter désormais que les données générées par l’IA fassent s’effondrer le modèle est en quelque sorte une “fête des gros titres”.
Xie Chenguang, le fondateur de Light Wheel Intelligence, a déclaré à Geek Park que, comme mentionné dans des articles étrangers, l’utilisation de données générées par l’IA pour former des modèles d’IA entraîne des plantages et que les méthodes expérimentales sont biaisées. Même les données humaines peuvent être divisées en utilisables et inutilisables, et les expériences mentionnées dans l’article sont directement utilisées pour la formation sans discrimination, plutôt que ciblées comme données de formation après inspection de la qualité et jugement d’efficacité.
Xie Chen a révélé qu’en fait, le GPT-4 d’OpenAI utilise une grande quantité de données produites par le modèle de génération précédente GPT-3.5 pour la formation. Sam Altman a également déclaré dans une récente interview que les données synthétiques sont un moyen efficace de résoudre la pénurie de données de modèles volumineux. Le point clé est qu’il existe un système complet pour distinguer quelles données générées par l’IA sont utilisables et lesquelles ne le sont pas, et pour donner en permanence des commentaires basés sur l’effet du modèle formé - c’est l’une des astuces uniques d’OpenAI pour être fier du AI Arena **, cette entreprise n’est pas aussi simple que de lever plus d’argent et d’acheter plus de puissance de calcul.
Dans l’industrie de l’IA, l’utilisation de données synthétiques pour la formation de modèles est déjà devenue un consensus qui n’est pas encore connu des étrangers.
Xie Chen, qui était auparavant responsable des simulations de conduite autonome dans des entreprises telles que Nvidia, Cruise et Weilai, estime qu’à en juger par la quantité actuelle de données pour diverses formations de modèles à grande échelle, dans les 2-3 prochaines années, l’humain les données peuvent en effet être “épuisées”, mais, basées sur des systèmes et des méthodes spécialisés, les données synthétiques générées par l’IA deviendront une source inépuisable de données efficaces**. Et les scénarios d’utilisation ne se limitent pas au texte et aux images. La quantité de données synthétiques requises par des industries telles que la conduite autonome et la robotique sera bien supérieure à la quantité de données textuelles.
Les trois éléments de l’IA sont les données, la puissance de calcul et les algorithmes. La source des données a été réglée et le grand modèle de l’algorithme évolue constamment. La seule pression de puissance de calcul restante, je pense que le fondateur de Nvidia, Huang Renxun, peut la résoudre doucement.