Partenaire YC : Plutôt que de se battre sur la taille du modèle, laissez l'IA évoluer comme un scientifique en écrivant du code lui-même

robot
Création du résumé en cours

Selon la surveillance de Beating, le partenaire de Y Combinator Diana Hu a indiqué sur X qu’au lieu de simplement augmenter la taille des paramètres, l’avenir consiste à construire une couche logicielle mince au-dessus du modèle de base, permettant à l’IA d’écrire elle-même des règles pour résoudre des problèmes comme un programmeur (modèle du monde exécutable). L’IA peut tester, modifier et simplifier le code en fonction des résultats, sans avoir besoin d’un ajustement coûteux du grand modèle lui-même.

Le chemin d’apprentissage du code sans gradient confirme le paradigme d’apprentissage heuristique (Heuristic Learning) proposé le mois dernier par le membre clé de la formation d’OpenAI, Wang Jiayi. Pour que l’IA apprenne une tâche, l’apprentissage par renforcement traditionnel nécessite des milliers de débogages, forçant l’expérience dans la boîte noire du réseau neuronal, ce qui consomme beaucoup d’énergie et est sujet à l’oubli. L’expérience de Wang Jiayi montre qu’en ne modifiant pas les paramètres du grand modèle, celui-ci peut écrire du code Python, trouver des bugs et ajuster des règles, et ainsi réussir à jouer à Pong dans le jeu Atari. Cela indique que le support de la connaissance peut tout à fait être un système de code lisible et testable par l’homme, plutôt que des poids de réseau neuronal incompréhensibles.

Selon Paul Graham, co-fondateur de YC, la boucle d’écriture, de validation et de compression du code est très proche de la recherche quotidienne d’un scientifique. Le grand modèle n’a pas besoin de reconstruire un cerveau, mais doit, comme un scientifique, écrire des hypothèses sous forme de code pour de nouveaux environnements, exécuter ce code pour des expériences de validation, et extraire les règles les plus simples pour résoudre le problème. La recherche du programme le plus simple est aussi la norme ultime pour mesurer l’efficacité de l’intelligence artificielle dans ARC-AGI.

Le principal avantage réside dans le fait que l’apprentissage sans gradient peut directement profiter de l’amélioration des capacités du modèle de base. Plus le modèle de base devient intelligent, plus les codes et stratégies écrits par l’agent s’améliorent de façon exponentielle. Sur la base de la douloureuse leçon de Richard Sutton (The Bitter Lesson), l’apprentissage du code sans gradient trace une toute nouvelle courbe en S. Avec l’explosion des capacités de codage des grands modèles, la voie d’auto-évolution de l’IA ouvre le rideau sur la prochaine génération de paradigmes en intelligence artificielle.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé