Code pur et dur contre les réseaux neuronaux ! Les grands modèles écrivent à la main des règles de contrôle pour pénétrer l'industrie hardcore, 14 dollars pour faire fonctionner toute la stratégie.

robot
Création du résumé en cours
AIMPACT message, le 19 mai (UTC+8), selon la surveillance de Beatting de Dongcha, le membre clé de l'entraînement post-OpenAI, Weng Jiayi, a récemment prouvé qu'« écrire du code uniquement avec de grands modèles peut réussir à passer les jeux Atari », ce qui a conduit les chercheurs Paul Garnier à appliquer cette méthode à un contrôle plus hardcore en dynamique des fluides. Il n'a pas entraîné de réseau neuronal tout au long du processus. Il a simplement laissé Codex 5.5 jouer le rôle de programmeur, en regardant des vidéos de simulation de fluides et en réécrivant en boucle des scripts Python. Grâce à cette règle de contrôle écrite à la main, l'IA a réussi, dans plus de la moitié des scénarios, à surpasser la ligne de base de l'apprentissage par renforcement (DRL) de pointe dans plusieurs tests physiques.
Pour réduire la traînée des voitures et calmer la turbulence des tuyaux, l'industrie n'a auparavant pu que s'appuyer sur une puissance de calcul massive, en alimentant un modèle boîte noire incompréhensible pour contrôler les vannes d'air. Codex a évité cette impasse. Les règles qu'il a écrites sont extrêmement simples, par exemple « lorsque la courbure locale est trop grande, retarder la poussée ». Quelques dizaines de lignes de code contenant des connaissances physiques ont directement remplacé la recherche aveugle et brutale des réseaux neuronaux.
Remplacer la boîte noire par du code a permis d’éliminer la rigidité des réseaux neuronaux, qui se brisent au moindre choc. Auparavant, une légère modification matérielle (par exemple, passer de 5 à 10 buses de contrôle) rendait le modèle obsolète, nécessitant une nouvelle formation coûteuse. Maintenant, il suffit de changer une constante dans le code, et le système peut s’adapter instantanément à de nouveaux appareils.
Lorsque le temps de test a été artificiellement quadruplé, les modèles DRL traditionnels, sortis de leur zone d’expérience, ont complètement échoué ; mais le code écrit par le grand modèle, suivant directement la logique physique, est resté stable.
Pour faire fonctionner toute cette stratégie de contrôle, le grand modèle n’a consommé que 21,25 millions de tokens, pour un coût total inférieur à 14 dollars.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé