TERMS-Bench eliminó los jueces de caja negra, evaluando directamente la capacidad real del modelo en ofertas, concesiones y violaciones. En las pruebas convencionales, Claude Opus 4.6 y GLM 5.1 ganan con ofertas altas, pero en la dificultad máxima pierden dinero debido a frecuentes colapsos en las negociaciones; Gemma 4 31B y Gemini 3.1 Pro los superan, mientras que Claude y GLM caen. El modo Bankroll convierte el comercio continuo en flujo de efectivo y riesgo de quiebra, siendo clave. GLM 5.1, Claude Opus 4.6 y los gigantes de Google tienen altas tasas de supervivencia, con efectivo de 380 a 443 dólares; Grok 4.20 y GPT-4o-mini son propensos a la quiebra.

MarsBitNews

2026-05-18 06:45:30

Generación de resúmenes en curso

Según la monitorización de Beating, Stanford y Erica Zhang, entre otros, publicaron el conjunto de pruebas de negociación económica TERMS-Bench.
Eliminó la “juez de caja negra” de los “grandes modelos”, permitiendo que los evaluadores puedan ver claramente si el modelo pierde en la oferta, en las concesiones o por incumplimiento.
En las pruebas habituales, Claude Opus 4.6 y Zhipu GLM 5.1 ocuparon los dos primeros lugares.
El artículo encontró que utilizan una estrategia dura de “ofertar mucho y no ceder”, que en partidas con altas ganancias puede agotar a los oponentes.
Pero en las partidas de máxima dificultad, donde el margen de beneficio es muy estrecho, esta estrategia dura resulta perjudicial debido a frecuentes colapsos en las negociaciones.
La clasificación aquí se desplomó: Gemma 4 31B (modelo de peso abierto) y Gemini 3.1 Pro, que saben hacer concesiones moderadas para asegurar pedidos, superaron y entraron en los dos primeros lugares;
mientras que el anterior líder, Claude, cayó al quinto puesto, y GLM al noveno.
Además de poner a prueba el límite de dificultad, lo que más impacta de este estándar es la prueba de supervivencia en modo Bankroll (fondo de fondos).
Una negociación única se extiende en compras continuas: cada agente recibe 100 dólares de capital inicial y negocia 50 rondas, con una tarifa fija de operación en cada ronda, y quiebra si se agota el dinero.
Aquí, pequeños errores en la negociación pueden convertirse en crisis de bancarrota por interés compuesto.
Los resultados muestran que, aunque GLM 5.1, Claude Opus 4.6 y los gigantes de Google tienen estrategias diferentes, todos dominan en control del flujo, logrando una supervivencia del 100%, con efectivo final entre 380 y 443 dólares.
En comparación, Grok 4.20 y GPT-4o-mini no pudieron soportar la pérdida de flujo de efectivo, con tasas de quiebra del 25% y 50%, respectivamente.
La clave de TERMS-Bench no está en la tasa de éxito en las negociaciones, sino en convertir errores en pérdidas de efectivo y riesgos de quiebra.
Que el modelo pueda convencer a su oponente es solo la primera capa; en las transacciones continuas, mantener las ganancias y el flujo de efectivo es lo que realmente marca la diferencia.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
TradfiTradingChallenge
84.02K Popularidad
#
CryptoMarketDrops150KLiquidated
50.17M Popularidad
#
IsraelStrikesIranBTCPlunges
47.43K Popularidad
#
#DailyPolymarketHotspot
984.4K Popularidad
#
ZEC/HYPE/FLRStrength
3.83M Popularidad

Fijado

Los dos gigantes de Google enfrentan una difícil situación para superar, TERMS-Bench convierte la negociación de IA en una prueba de estrés de bancarrota

Temas de actualidad

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Fijado