TERMS-Bench remove o juiz de caixa preta, avaliando diretamente a verdadeira capacidade do modelo em lances, concessões e violações. Nos testes convencionais, Claude Opus 4.6 e GLM 5.1 vencem com lances mais altos, mas na dificuldade máxima, frequentemente perdem dinheiro devido a negociações frequentes fracassadas; Gemma 4 31B e Gemini 3.1 Pro superam, enquanto Claude e GLM caem. O modo Bankroll transforma negociações contínuas em fluxo de caixa e risco de falência, sendo crucial. GLM 5.1, Claude Opus 4.6 e os dois gigantes do Google têm alta taxa de sobrevivência, com caixa de 380–443 dólares; Grok 4.20 e GPT-4o-mini são mais propensos a falir.

MarsBitNews

2026-05-18 06:45:30

Geração de resumo em curso

De acordo com o monitoramento Beating, Stanford, Erica Zhang e outros publicaram o conjunto de testes de negociação econômica TERMS-Bench.
Ele removeu o “juiz de grande modelo de caixa preta”, permitindo que os avaliadores vejam claramente se o modelo perde por oferecer, ceder ou violar regras.
Nos testes convencionais, Claude Opus 4.6 e Zhipu GLM 5.1 conquistaram os dois primeiros lugares.
O artigo descobriu que eles adotaram uma estratégia rígida de “oferecer alto, não ceder nunca”, explorando os oponentes em jogos lucrativos de vantagem.
Mas, na situação de maior dificuldade, com espaço de lucro extremamente estreito, a estratégia rígida prejudica devido a negociações frequentes que fracassam.
A classificação aqui falhou: Gemma 4 31B (modelo de peso aberto) e Gemini 3.1 Pro, que sabem ceder moderadamente para garantir pedidos, ultrapassaram e ficaram nas duas primeiras posições;
Enquanto isso, o líder anterior, Claude, caiu para o 5º lugar, e GLM caiu para o 9º.
Além do teste de dificuldade extrema, o aspecto mais impactante do benchmark é o modo Bankroll (fundo de capital), que testa a sobrevivência.
Uma negociação única é prolongada para compras contínuas: cada agente começa com 100 dólares e negocia 50 rodadas, descontando uma taxa operacional fixa a cada rodada, ficando insolvente ao acabar o dinheiro.
Aqui, pequenos erros de negociação podem se transformar em crises de falência por efeito de juros compostos.
Os resultados mostraram que, apesar de estratégias diferentes, GLM 5.1, Claude Opus 4.6 e os dois gigantes do Google mantiveram controle, todos sobrevivendo 100%, com dinheiro final entre 380 e 443 dólares.
Em comparação, Grok 4.20 e GPT-4o-mini não conseguiram resistir à perda de fluxo de caixa, com taxas de falência de 25% e 50%, respectivamente.
O diferencial do TERMS-Bench não está na taxa de sucesso, mas em transformar erros de negociação em perdas financeiras e risco de falência.
Se o modelo consegue convencer o oponente é apenas a primeira camada;
Na negociação contínua, a verdadeira diferença está em manter lucros e fluxo de caixa, o que realmente diferencia os resultados.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
84.02K Popularidade
#
CryptoMarketDrops150KLiquidated
50.17M Popularidade
#
IsraelStrikesIranBTCPlunges
47.43K Popularidade
#
#DailyPolymarketHotspot
984.4K Popularidade
#
ZEC/HYPE/FLRStrength
3.83M Popularidade

Fixado

Os dois gigantes do Google enfrentam uma situação difícil de superar, o TERMS-Bench transforma negociações de IA em testes de resistência à falência

Tópicos em destaque

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Fixado