TERMS-Bench a supprimé le juge boîte noire, évaluant directement la véritable capacité du modèle en matière d'enchères, de concessions et de violations. Lors des tests standard, Claude Opus 4.6 et GLM 5.1 remportent la victoire grâce à des enchères élevées, mais perdent de l'argent à cause de négociations fréquentes à difficulté maximale ; Gemma 4 31B et Gemini 3.1 Pro prennent l'avantage, tandis que Claude et GLM chutent. Le mode Bankroll transforme le trading continu en flux de trésorerie et en risque de faillite, ce qui est crucial. GLM 5.1, Claude Opus 4.6 et le duo Google ont un taux de survie élevé, avec une trésorerie de 380 à 443 dollars ; Grok 4.20 et GPT-4o-mini sont plus susceptibles de faire faillite.

MarsBitNews

2026-05-18 06:45:30

Création du résumé en cours

Selon le suivi de Beating, Zhang Erica de Stanford et d’autres ont publié le jeu de tests d’économie de négociation TERMS-Bench.
Il élimine la « jugement de grande modèle en boîte noire », permettant aux évaluateurs de voir directement si le modèle perd à cause des offres, des concessions ou des violations.
Dans les tests standard, Claude Opus 4.6 et Zhipu GLM 5.1 occupent les deux premières places.
La recherche montre qu’ils ont adopté une stratégie ferme de « haute offre, refus obstiné », pouvant épuiser leurs adversaires dans des parties très rentables.
Mais dans les parties à marge de profit extrêmement étroite et de difficulté maximale, cette stratégie ferme se retourne contre eux en raison de négociations qui échouent fréquemment.
Le classement ici s’effondre : Gemma 4 31B (modèle à poids ouverts) et Gemini 3.1 Pro, qui savent faire des concessions modérées pour préserver leur ordre, dépassent et entrent dans le top deux ;
alors que le leader précédent, Claude, chute à la 5e place, et GLM à la 9e.
En plus du test de difficulté extrême, ce benchmark a un impact majeur avec le mode Bankroll (fonds) qui teste la capacité de survie.
Une négociation unique est prolongée en une série d’achats continus : chaque agent commence avec 100 dollars, négocie 50 tours, avec des frais fixes à chaque tour, et fait faillite s’il perd tout.
Ici, une petite erreur de négociation peut se transformer en crise de faillite par effet composé.
Les résultats montrent que, malgré des stratégies différentes, GLM 5.1, Claude Opus 4.6 et les géants de Google dominent en contrôle, tous survivant à 100 %, avec un cash final compris entre 380 et 443 dollars.
En revanche, Grok 4.20 et GPT-4o-mini ne peuvent pas supporter la perte de flux de trésorerie, avec des taux de faillite respectifs de 25 % et 50 %.
L’essence de TERMS-Bench ne réside pas dans le taux de réussite des négociations, mais dans la conversion des erreurs de négociation en pertes financières et en risques de faillite.
Un modèle peut-il convaincre l’adversaire ? C’est la première étape ;
dans une série de transactions continues, la capacité à maintenir les profits et la trésorerie fait vraiment la différence.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
84.02K Popularité
#
CryptoMarketDrops150KLiquidated
50.17M Popularité
#
IsraelStrikesIranBTCPlunges
47.43K Popularité
#
#DailyPolymarketHotspot
984.4K Popularité
#
ZEC/HYPE/FLRStrength
3.83M Popularité

Épinglé

Les deux géants de Google dans une situation difficile, surpassés, TERMS-Bench transforme la négociation IA en test de résistance à la faillite

Sujets populaires

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Épinglé