Les deux géants de Google dans une situation difficile, surpassés, TERMS-Bench transforme la négociation IA en test de résistance à la faillite

robot
Création du résumé en cours

Selon le suivi de Beating, Zhang Erica de Stanford et d’autres ont publié le jeu de tests d’économie de négociation TERMS-Bench.
Il élimine la « jugement de grande modèle en boîte noire », permettant aux évaluateurs de voir directement si le modèle perd à cause des offres, des concessions ou des violations.
Dans les tests standard, Claude Opus 4.6 et Zhipu GLM 5.1 occupent les deux premières places.
La recherche montre qu’ils ont adopté une stratégie ferme de « haute offre, refus obstiné », pouvant épuiser leurs adversaires dans des parties très rentables.
Mais dans les parties à marge de profit extrêmement étroite et de difficulté maximale, cette stratégie ferme se retourne contre eux en raison de négociations qui échouent fréquemment.
Le classement ici s’effondre : Gemma 4 31B (modèle à poids ouverts) et Gemini 3.1 Pro, qui savent faire des concessions modérées pour préserver leur ordre, dépassent et entrent dans le top deux ;
alors que le leader précédent, Claude, chute à la 5e place, et GLM à la 9e.
En plus du test de difficulté extrême, ce benchmark a un impact majeur avec le mode Bankroll (fonds) qui teste la capacité de survie.
Une négociation unique est prolongée en une série d’achats continus : chaque agent commence avec 100 dollars, négocie 50 tours, avec des frais fixes à chaque tour, et fait faillite s’il perd tout.
Ici, une petite erreur de négociation peut se transformer en crise de faillite par effet composé.
Les résultats montrent que, malgré des stratégies différentes, GLM 5.1, Claude Opus 4.6 et les géants de Google dominent en contrôle, tous survivant à 100 %, avec un cash final compris entre 380 et 443 dollars.
En revanche, Grok 4.20 et GPT-4o-mini ne peuvent pas supporter la perte de flux de trésorerie, avec des taux de faillite respectifs de 25 % et 50 %.
L’essence de TERMS-Bench ne réside pas dans le taux de réussite des négociations, mais dans la conversion des erreurs de négociation en pertes financières et en risques de faillite.
Un modèle peut-il convaincre l’adversaire ? C’est la première étape ;
dans une série de transactions continues, la capacité à maintenir les profits et la trésorerie fait vraiment la différence.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé