Os dois gigantes do Google enfrentam uma situação difícil de superar, o TERMS-Bench transforma negociações de IA em testes de resistência à falência

robot
Geração do resumo em andamento

De acordo com o monitoramento Beating, Erica Zhang e outros de Stanford lançaram o conjunto de testes de negociação econômica TERMS-Bench.
Ele removeu o “juiz de grande modelo de caixa preta”, permitindo que os avaliadores vejam claramente se o modelo perde por oferecer preços, concessões ou violações.
Nos testes convencionais, Claude Opus 4.6 e Zhipu GLM 5.1 conquistaram os dois primeiros lugares.
O artigo descobriu que eles adotaram uma estratégia rígida de “oferecer preços altos e não ceder”, podendo esgotar o oponente em partidas favoráveis ao lucro.
Mas, na partida de maior dificuldade, com espaço de lucro extremamente estreito, a estratégia rígida sofre por falhas frequentes nas negociações.
A classificação aqui falhou: Gemma 4 31B (modelo de peso aberto) e Gemini 3.1 Pro, que sabem fazer concessões moderadas para garantir pedidos, ultrapassaram e ficaram nas duas primeiras posições;
Enquanto isso, o líder anterior, Claude, caiu para o 5º lugar, e GLM caiu para o 9º.
Além do limite extremo de teste, o aspecto mais impactante do benchmark é o modo Bankroll (fundo de capital), que testa a resistência.
Uma negociação única é prolongada para uma compra contínua: cada agente começa com 100 dólares e negocia 50 rodadas, descontando uma taxa operacional fixa a cada rodada, ficando insolvente ao acabar o dinheiro.
Aqui, pequenos erros de negociação podem se transformar em crises de falência por efeito de juros compostos.
Os resultados mostraram que, apesar de estratégias diferentes, GLM 5.1, Claude Opus 4.6 e os dois gigantes do Google lideraram em controle, todos sobrevivendo 100%, com saldo final entre 380 e 443 dólares.
Em comparação, Grok 4.20 e GPT-4o-mini não conseguiram resistir à perda de fluxo de caixa, com taxas de falência de 25% e 50%, respectivamente.
O ponto central do TERMS-Bench não é a taxa de sucesso na negociação, mas sim transformar erros de negociação em perdas financeiras e risco de falência.
Se o modelo consegue convencer o oponente é apenas a primeira camada;
Na negociação contínua, a verdadeira diferença está em manter lucros e fluxo de caixa, que é o que realmente diferencia.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado