Rapport d'Anthropic répondant à l'auto-évolution : une boucle partielle a été réalisée, mais il reste encore du chemin vers un entraînement totalement autonome

robot
Création du résumé en cours
Selon la surveillance de Beating, la capacité d'itération autonome de l'IA dépasse toutes les attentes. L'Institut Anthropic a publié le 5 juin un rapport intitulé « Lorsque l'IA construit elle-même », détaillant ses progrès en matière de « récursion d'auto-amélioration ». Les données indiquent qu'à la fin mai 2026, plus de 80 % du code fusionné dans la branche principale d'Anthropic a été écrit par Claude lui-même. Avant la sortie du code Claude en février 2025, le code écrit par Claude ne représentait qu'une petite fraction. Tang Jie, fondateur de Zhipu AI, avait prévu le 13 mai que le but ultime des grands modèles serait l'auto-évolution, et que Claude aurait peut-être déjà franchi la ligne de base de l'auto-entraînement « écrire du code, nettoyer des données, s'entraîner lui-même ». Cependant, le rapport d'Anthropic précise que la conception et le développement entièrement autonomes d'un successeur par récursion d'auto-amélioration n'ont pas encore été réalisés. Le rôle de l'IA dans la chaîne de développement est en train de passer d'une amélioration locale à une prise de décision autonome. Au deuxième trimestre 2026, la quantité de code fusionnée par ingénieur par jour chez Anthropic a atteint huit fois celle de 2024. Le processus de développement actuel est très simple : les ingénieurs se concentrent sur la planification des objectifs et la revue, tandis que Claude s'occupe de la rédaction et de l'exécution. Anthropic a également déployé Claude en tant que relecteur automatique de code, chargé d'intercepter bugs et vulnérabilités de sécurité. Cela montre que la « capacité d'auto-jugement » évoquée par Tang Jie a été mise en œuvre dans l'ingénierie, mais la revue humaine reste la dernière barrière de sécurité. La fiabilité de l'exécution indépendante de tâches longues par le modèle a également doublé. La durée pendant laquelle le modèle peut fonctionner de manière autonome est approximativement multipliée par deux tous les quatre mois. En mars 2024, Claude 3 Opus ne pouvait traiter que des tâches simples de 4 minutes. Un an plus tard, Claude 3.7 Sonnet pouvait supporter 1,5 heure. En mars 2026, Claude 4.6 Opus pouvait gérer des tâches complexes de 12 heures. Selon les données de l'organisme d’évaluation METR, la dernière version préliminaire de Claude Mythos peut fonctionner de manière autonome pendant plus de 16 heures, approchant la limite des outils d’évaluation actuels. À ce rythme, d’ici 2027, l’IA sera capable de réaliser de manière autonome des tâches de recherche qui prendraient plusieurs semaines à un humain, aidant les entreprises à passer d’une « société unipersonnelle » à une « société sans personnel ». Quant à la « ligne de base d’auto-entraînement » supposée par Tang Jie, le rapport révèle en réalité un « boucle expérimentale miniature » partielle. Lors de l’expérimentation d’accélération du code pour de petits modèles, en mai 2025, Claude 4 Opus n’a pu augmenter la vitesse du code que par un facteur de 3, tandis qu’en avril 2026, la version préliminaire de Claude Mythos a atteint un accélération de 52 fois. En comparaison, les meilleurs chercheurs humains peuvent généralement réaliser une amélioration de 4 fois en 4 à 8 heures. Cependant, les objectifs d’optimisation et les indicateurs de succès de l’expérimentation sont fixés à l’avance par l’humain. Lorsqu’il s’agit de la chaîne complète « nettoyage des données, génération de données synthétiques et auto-entraînement », la capacité de décision de l’IA reste insuffisante. Pourtant, la boucle autonome de la chaîne de développement pousse l’humain au bord de la perte du contrôle ultime du système. La prédiction de Tang Jie selon laquelle « LLM OS remplacera l’architecture traditionnelle, et les applications seront générées à la demande » implique que dans le futur, tous les programmes fonctionneront avec du code dynamique impossible à préalablement examiner ; tandis que l’avertissement d’Anthropic selon lequel « la revue humaine ne pourra suivre l’auto-évolution de l’IA » signifie que nous ne pourrons même pas contrôler la source de génération du code. Lorsque l’IA commencera à concevoir et entraîner ses successeurs de manière autonome, l’évolution logicielle deviendra un coffre noir. Si l’on laisse l’IA effectuer des auto-itérations non auditées dans un système noir, la sécurité, la surveillance et l’alignement comportemental de ces systèmes d’auto-amélioration deviendront extrêmement difficiles à gérer.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé