Le cadre d'optimisation automatique par IA place les performances du terminal Haiku 4.5 en tête : Lin Junyang affirme que c'est précisément le tournant de « la conception de l'environnement » qu'il avait prévu.

robot
Création du résumé en cours

CoinDesk Network indique que, selon 1M AI News, des chercheurs de Stanford, du MIT et de la société sud-coréenne de jeux KRAFTON ont publié Meta-Harness, une méthode permettant à l’IA d’automatiser l’optimisation de cadres d’exécution (harness, c.-à-d. un environnement d’exécution qui enveloppe le modèle et sert d’échafaudage pour piloter les actions d’un agent, incluant la conception des invites, l’appel d’outils et la gestion du contexte). Contrairement aux cadres d’exécution rédigés manuellement, Meta-Harness permet à un agent de codage de lire le code, les journaux d’exécution et les notes des cadres candidats précédents, puis d’itérer automatiquement pour les améliorer. Sur le banc d’essai d’exécution en mode terminal TerminalBench-2, Meta-Harness a porté le taux de réussite de Claude Haiku 4.5 à 37,6 %, dépassant Goose (35,5 %) et Claude Code (27,5 %), et se classant n°1 parmi tous les cadres d’exécution Haiku 4.5 signalés. Sur Claude Opus 4.6, le taux de réussite est de 76,4 %, ce qui le place n°2. Le responsable technique de l’ancien Tongyi Qianwen, Lin Junyang, a relayé le billet de l’auteur du papier et commenté : « “Modèle + cadre d’exécution” a dépassé “ne regarder que le modèle”. Les performances de l’agent sont nettement influencées par la conception et la qualité du cadre. Je pense vraiment que c’est une direction correcte ». Dans un long billet publié le 27 mars (actuellement supprimé), Lin Junyang avait déjà anticipé que la conception d’environnement passerait de projet secondaire à une véritable catégorie de produit entrepreneurial. Meta-Harness a étayé ce jugement avec des données expérimentales : avec le même modèle, en remplaçant par un ensemble de cadres d’exécution optimisés par l’IA, l’écart de résultats peut atteindre 10 points de pourcentage.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler