TERMS-Bench remove o juiz de caixa preta, avaliando diretamente a capacidade real do modelo em lances, concessões e violações. Nos testes convencionais, Claude Opus 4.6 e GLM 5.1 vencem por oferecer lances mais altos, mas na dificuldade máxima, perdem dinheiro devido a negociações frequentes fracassadas; Gemma 4 31B e Gemini 3.1 Pro superam, enquanto Claude e GLM caem. O modo Bankroll transforma negociações contínuas em fluxo de caixa e risco de falência, sendo crucial. GLM 5.1, Claude Opus 4.6 e os dois gigantes do Google têm alta taxa de sobrevivência, com caixa de 380–443 dólares; Grok 4.20 e GPT-4o-mini são mais propensos a falir.

MarsBitNews

2026-05-18 06:45:30

Geração do resumo em andamento

De acordo com o monitoramento Beating, Erica Zhang e outros de Stanford lançaram o conjunto de testes de negociação econômica TERMS-Bench.
Ele removeu o “juiz de grande modelo de caixa preta”, permitindo que os avaliadores vejam claramente se o modelo perde por oferecer preços, concessões ou violações.
Nos testes convencionais, Claude Opus 4.6 e Zhipu GLM 5.1 conquistaram os dois primeiros lugares.
O artigo descobriu que eles adotaram uma estratégia rígida de “oferecer preços altos e não ceder”, podendo esgotar o oponente em partidas favoráveis ao lucro.
Mas, na partida de maior dificuldade, com espaço de lucro extremamente estreito, a estratégia rígida sofre por falhas frequentes nas negociações.
A classificação aqui falhou: Gemma 4 31B (modelo de peso aberto) e Gemini 3.1 Pro, que sabem fazer concessões moderadas para garantir pedidos, ultrapassaram e ficaram nas duas primeiras posições;
Enquanto isso, o líder anterior, Claude, caiu para o 5º lugar, e GLM caiu para o 9º.
Além do limite extremo de teste, o aspecto mais impactante do benchmark é o modo Bankroll (fundo de capital), que testa a resistência.
Uma negociação única é prolongada para uma compra contínua: cada agente começa com 100 dólares e negocia 50 rodadas, descontando uma taxa operacional fixa a cada rodada, ficando insolvente ao acabar o dinheiro.
Aqui, pequenos erros de negociação podem se transformar em crises de falência por efeito de juros compostos.
Os resultados mostraram que, apesar de estratégias diferentes, GLM 5.1, Claude Opus 4.6 e os dois gigantes do Google lideraram em controle, todos sobrevivendo 100%, com saldo final entre 380 e 443 dólares.
Em comparação, Grok 4.20 e GPT-4o-mini não conseguiram resistir à perda de fluxo de caixa, com taxas de falência de 25% e 50%, respectivamente.
O ponto central do TERMS-Bench não é a taxa de sucesso na negociação, mas sim transformar erros de negociação em perdas financeiras e risco de falência.
Se o modelo consegue convencer o oponente é apenas a primeira camada;
Na negociação contínua, a verdadeira diferença está em manter lucros e fluxo de caixa, que é o que realmente diferencia.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
TradfiTradingChallenge
83.98K Popularidade
#
CryptoMarketDrops150KLiquidated
50.17M Popularidade
#
IsraelStrikesIranBTCPlunges
47.43K Popularidade
#
#DailyPolymarketHotspot
984.4K Popularidade
#
ZEC/HYPE/FLRStrength
3.83M Popularidade

Fixado

sitemap

Os dois gigantes do Google enfrentam uma situação difícil de superar, o TERMS-Bench transforma negociações de IA em testes de resistência à falência

Tendências

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Fixado