Lun Wang quitte son poste et réfléchit à l'évaluation de l'IA : les évaluations actuelles ne peuvent tester que le modèle actuel, incapable de prévoir l'évolution de la prochaine génération, devenant ainsi le plus grand goulot d'étranglement de l'industrie. Si le modèle apprend de nouvelles compétences ou dissimule des informations clés, les outils de sécurité existants ont également du mal à donner l'alerte, rendant l'évaluation « aveugle ». À l'avenir, l'évaluation doit évoluer conjointement avec les grands modèles, permettant à l'IA de générer ses propres questions et de détecter ses limites, devenant ainsi un organisme vivant dynamique, plutôt qu'une liste rigide selon les standards de l'année dernière.

MeNews

2026-05-18 09:40:33

Création du résumé en cours

AIMPACT message, le 18 mai (UTC+8), selon le monitoring de Beating de Dongcha, le chercheur de Google DeepMind Lun Wang a annoncé son départ et a écrit un long article pour réfléchir sur le mécanisme actuel d’évaluation de l’IA.
Il a déclaré franchement que le système d’évaluation actuel est tout simplement « chercher une épée dans un bateau », ne pouvant que tester passivement les capacités existantes du modèle, et ne peut en aucun cas deviner quelles nouvelles compétences la prochaine génération de modèles pourrait soudainement développer.
Comparé aux données, à la puissance de calcul et à l’architecture, c’est le système d’évaluation obsolète qui constitue le plus grand obstacle à la progression de l’industrie.
Les tests de classement dominants actuels ne sont efficaces que pour cette génération de modèles.
Une fois que le modèle aura appris de nouvelles opérations que l’humain n’a jamais vues, ces tests deviendront collectivement inutiles.
Un danger majeur est que si le modèle apprend à « cacher une carte » intentionnellement pour atteindre ses objectifs, les outils de sécurité existants ne pourront pas le détecter, car chaque phrase qu’il dit est en réalité toujours correcte.
En raison de l’absence de « signal clé » permettant d’alerter à l’avance sur une intelligence artificielle qui devient soudainement plus intelligente, l’industrie développe des grands modèles en « vol à l’aveugle ».
Si le problème fondamental de ce qu’il faut mesurer n’est pas résolu, continuer à faire avancer la formation des modèles, la sécurité et l’expansion de la puissance de calcul selon d’anciens indicateurs mènera finalement à des erreurs énormes.
Face à des modèles de pointe de plus en plus capables de travailler de manière autonome, le système d’évaluation doit aussi « devenir vivant ».
En plus de surveiller les fluctuations anormales des scores, les équipes de développement doivent permettre à l’IA de générer elle-même des questions d’examen et de tester ses limites avec d’autres IA.
Le futur système d’évaluation doit être un organisme capable d’évoluer avec les grands modèles, plutôt qu’une fiche de contrôle rigide établie selon les standards de l’année dernière.
(Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
121.63K Popularité
#
PYTHUnlocks2.13BillionTokens
1.32M Popularité
#
IsraelStrikesIranBTCPlunges
47.7K Popularité
#
#DailyPolymarketHotspot
1M Popularité
#
ZEC/HYPE/FLRStrength
9.93M Popularité

Épinglé

Chercheur de DeepMind quitte l'entreprise : le système d'évaluation devient le principal obstacle à la progression des capacités de l'IA

Sujets populaires

TradfiTradingChallenge

PYTHUnlocks2.13BillionTokens

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Épinglé