Los dos gigantes de Google enfrentan una difícil situación para superar, TERMS-Bench convierte la negociación de IA en una prueba de estrés de bancarrota

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Stanford y Erica Zhang, entre otros, publicaron el conjunto de pruebas de negociación económica TERMS-Bench.
Eliminó la “juez de caja negra” de los “grandes modelos”, permitiendo que los evaluadores puedan ver claramente si el modelo pierde en la oferta, en las concesiones o por incumplimiento.
En las pruebas habituales, Claude Opus 4.6 y Zhipu GLM 5.1 ocuparon los dos primeros lugares.
El artículo encontró que utilizan una estrategia dura de “ofertar mucho y no ceder”, que en partidas con altas ganancias puede agotar a los oponentes.
Pero en las partidas de máxima dificultad, donde el margen de beneficio es muy estrecho, esta estrategia dura resulta perjudicial debido a frecuentes colapsos en las negociaciones.
La clasificación aquí se desplomó: Gemma 4 31B (modelo de peso abierto) y Gemini 3.1 Pro, que saben hacer concesiones moderadas para asegurar pedidos, superaron y entraron en los dos primeros lugares;
mientras que el anterior líder, Claude, cayó al quinto puesto, y GLM al noveno.
Además de poner a prueba el límite de dificultad, lo que más impacta de este estándar es la prueba de supervivencia en modo Bankroll (fondo de fondos).
Una negociación única se extiende en compras continuas: cada agente recibe 100 dólares de capital inicial y negocia 50 rondas, con una tarifa fija de operación en cada ronda, y quiebra si se agota el dinero.
Aquí, pequeños errores en la negociación pueden convertirse en crisis de bancarrota por interés compuesto.
Los resultados muestran que, aunque GLM 5.1, Claude Opus 4.6 y los gigantes de Google tienen estrategias diferentes, todos dominan en control del flujo, logrando una supervivencia del 100%, con efectivo final entre 380 y 443 dólares.
En comparación, Grok 4.20 y GPT-4o-mini no pudieron soportar la pérdida de flujo de efectivo, con tasas de quiebra del 25% y 50%, respectivamente.
La clave de TERMS-Bench no está en la tasa de éxito en las negociaciones, sino en convertir errores en pérdidas de efectivo y riesgos de quiebra.
Que el modelo pueda convencer a su oponente es solo la primera capa; en las transacciones continuas, mantener las ganancias y el flujo de efectivo es lo que realmente marca la diferencia.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado