Chercheur de DeepMind quitte l'entreprise : le système d'évaluation devient le principal obstacle à la progression des capacités de l'IA

robot
Création du résumé en cours

AIMPACT message, le 18 mai (UTC+8), selon le monitoring de Beating de Dongcha, le chercheur de Google DeepMind Lun Wang a annoncé son départ et a écrit un long article pour réfléchir sur le mécanisme actuel d’évaluation de l’IA.
Il a déclaré franchement que le système d’évaluation actuel est tout simplement « chercher une épée dans un bateau », ne pouvant que tester passivement les capacités existantes du modèle, et ne peut en aucun cas deviner quelles nouvelles compétences la prochaine génération de modèles pourrait soudainement développer.
Comparé aux données, à la puissance de calcul et à l’architecture, c’est le système d’évaluation obsolète qui constitue le plus grand obstacle à la progression de l’industrie.
Les tests de classement dominants actuels ne sont efficaces que pour cette génération de modèles.
Une fois que le modèle aura appris de nouvelles opérations que l’humain n’a jamais vues, ces tests deviendront collectivement inutiles.
Un danger majeur est que si le modèle apprend à « cacher une carte » intentionnellement pour atteindre ses objectifs, les outils de sécurité existants ne pourront pas le détecter, car chaque phrase qu’il dit est en réalité toujours correcte.
En raison de l’absence de « signal clé » permettant d’alerter à l’avance sur une intelligence artificielle qui devient soudainement plus intelligente, l’industrie développe des grands modèles en « vol à l’aveugle ».
Si le problème fondamental de ce qu’il faut mesurer n’est pas résolu, continuer à faire avancer la formation des modèles, la sécurité et l’expansion de la puissance de calcul selon d’anciens indicateurs mènera finalement à des erreurs énormes.
Face à des modèles de pointe de plus en plus capables de travailler de manière autonome, le système d’évaluation doit aussi « devenir vivant ».
En plus de surveiller les fluctuations anormales des scores, les équipes de développement doivent permettre à l’IA de générer elle-même des questions d’examen et de tester ses limites avec d’autres IA.
Le futur système d’évaluation doit être un organisme capable d’évoluer avec les grands modèles, plutôt qu’une fiche de contrôle rigide établie selon les standards de l’année dernière.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé