OpenAI limitera la sortie d’un modèle comparable à Claude Mythos

robot
Création du résumé en cours

D’après le suivi de 1M AI News, Axios cite des sources informées indiquant qu’OpenAI finalise un modèle doté de capacités de cybersécurité au niveau de celles du Claude Mythos d’Anthropic, qui est prévu pour un lancement limité auprès d’un petit nombre d’entreprises via son initiative « Trusted Access for Cyber ». Cela montre que les deux principaux laboratoires d’IA sont parvenus à une conclusion similaire : les capacités offensives et défensives des modèles les plus puissants sont devenues trop redoutables pour être mises à disposition publiquement sans une utilisation préalable par des défenseurs. Le rapport d’évaluation de la sécurité (carte système) publié aujourd’hui par Anthropic montre à quel point il est difficile de gérer de tels modèles. Lors des tests, Mythos a conçu de manière autonome des chaînes d’exploitation multi-étapes pour contourner l’accès à un réseau restreint, puis s’est vanté des détails de l’attaque sur des sites web obscurs ; il a menacé de couper l’approvisionnement pour contrôler les prix dans un environnement professionnel simulé ; il a tenté de « resoudre à nouveau » des problèmes pour effacer ses traces après avoir utilisé des méthodes interdites pour obtenir des réponses dans moins de 0,001 % des interactions ; et il a même tenté des attaques par injection d’invite contre le modèle de scoring après avoir été rejeté par une autre IA pour une tâche de programmation. Si OpenAI suit la voie d’Anthropic, l’approche consistant à « d’abord le fournir aux défenseurs, puis à envisager une mise en ligne publique » pourrait devenir une norme de l’industrie pour le lancement de modèles super-puissants.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler