Гугл-двійка у складній ситуації перехопила лідерство, TERMS-Bench перетворює переговори з AI у тест на банкрутство

robot
Генерація анотацій у процесі

За даними моніторингу Beating, Стенфордські дослідники Еріки Чжан та інші опублікували тестовий набір для економічних переговорів TERMS-Bench. Він усунув «чорний ящик» у вигляді «судді великих моделей», дозволяючи оцінювачам безпосередньо бачити, де саме модель програє — у цінових пропозиціях, поступках чи порушеннях.
У звичайних тестах перші два місця зайняли Claude Opus 4.6 та інтелектуальна модель GLM 5.1. У статті виявлено, що вони застосовували жорстку стратегію «високі ставки, наполегливо не поступатися», щоб виснажити суперника у вигідних для себе ситуаціях.
Але при найвищій складності з мінімальним запасом прибутку жорстка стратегія починає програвати через часті провали переговорів. Таблиця лідерів тут зазнала краху: модель Gemma 4 31B (відкрита модель з вагами) та Gemini 3.1 Pro, які вміють помірковано поступатися, обігнали і посіли перші два місця; тоді як колишні лідери Claude опустилися на 5-те, а GLM — на 9-те.
Крім тестування на екстремальну складність, найбільш вражаючим є тест на виживання у режимі Bankroll (фінансовий пул). Одна переговорна сесія розтягується на безперервні закупівлі: кожен агент отримує 100 доларів і веде 50 раундів переговорів, кожен з яких має фіксовані операційні витрати, і при втраті всіх грошей він оголошується банкрутом.
Тут навіть найменша помилка у переговорах може призвести до ланцюгової реакції банкрутства.
Результати показали, що згадані вище GLM 5.1, Claude Opus 4.6 та дві моделі Google — попри різну стратегію — мають найкращі навички контролю ситуації, всі пройшли 100% і вижили, їхній кінцевий капітал склав від 380 до 443 доларів.
У порівнянні з цим, Grok 4.20 та GPT-4o-mini не змогли витримати втрати і ризик банкрутства, їхні показники банкрутства становили відповідно 25% і 50%.
Ключовий аспект TERMS-Bench полягає не у рівні успішних угод, а у перетворенні помилок у переговорах у фінансові збитки та ризик банкрутства.
Чи може модель переконати опонента — це лише перший рівень; справжня різниця полягає у здатності зберегти прибуток і готівку у серії послідовних угод.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено