Os dois gigantes do Google enfrentam uma situação difícil de superar, o TERMS-Bench transforma negociações de IA em testes de resistência à falência

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, Stanford, Erica Zhang e outros publicaram o conjunto de testes de negociação econômica TERMS-Bench.
Ele removeu o “juiz de grande modelo de caixa preta”, permitindo que os avaliadores vejam claramente se o modelo perde por oferecer, ceder ou violar regras.
Nos testes convencionais, Claude Opus 4.6 e Zhipu GLM 5.1 conquistaram os dois primeiros lugares.
O artigo descobriu que eles adotaram uma estratégia rígida de “oferecer alto, não ceder nunca”, explorando os oponentes em jogos lucrativos de vantagem.
Mas, na situação de maior dificuldade, com espaço de lucro extremamente estreito, a estratégia rígida prejudica devido a negociações frequentes que fracassam.
A classificação aqui falhou: Gemma 4 31B (modelo de peso aberto) e Gemini 3.1 Pro, que sabem ceder moderadamente para garantir pedidos, ultrapassaram e ficaram nas duas primeiras posições;
Enquanto isso, o líder anterior, Claude, caiu para o 5º lugar, e GLM caiu para o 9º.
Além do teste de dificuldade extrema, o aspecto mais impactante do benchmark é o modo Bankroll (fundo de capital), que testa a sobrevivência.
Uma negociação única é prolongada para compras contínuas: cada agente começa com 100 dólares e negocia 50 rodadas, descontando uma taxa operacional fixa a cada rodada, ficando insolvente ao acabar o dinheiro.
Aqui, pequenos erros de negociação podem se transformar em crises de falência por efeito de juros compostos.
Os resultados mostraram que, apesar de estratégias diferentes, GLM 5.1, Claude Opus 4.6 e os dois gigantes do Google mantiveram controle, todos sobrevivendo 100%, com dinheiro final entre 380 e 443 dólares.
Em comparação, Grok 4.20 e GPT-4o-mini não conseguiram resistir à perda de fluxo de caixa, com taxas de falência de 25% e 50%, respectivamente.
O diferencial do TERMS-Bench não está na taxa de sucesso, mas em transformar erros de negociação em perdas financeiras e risco de falência.
Se o modelo consegue convencer o oponente é apenas a primeira camada;
Na negociação contínua, a verdadeira diferença está em manter lucros e fluxo de caixa, o que realmente diferencia os resultados.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado