TERMS-Bench усунув чорний ящик суддівства, безпосередньо оцінює реальні можливості моделі у ставках, поступках та порушеннях. У звичайних тестах Claude Opus 4.6 та GLM 5.1 перемагають завдяки високим ставкам, але на найвищому рівні складності через часті провали у переговорах зазнають збитків; Gemma 4 31B та Gemini 3.1 Pro випереджають, Claude та GLM падають. Режим Bankroll перетворює послідовну торгівлю у грошовий потік та ризик банкрутства, що є ключовим. GLM 5.1, Claude Opus 4.6 та дві гіганти Google мають високий рівень виживання, з готівкою 380–443 долари; Grok 4.20 та GPT-4o-mini легко збанкрутують.

MarsBitNews

2026-05-18 06:45:30

Генерація анотацій у процесі

За даними моніторингу Beating, Стенфордські дослідники Еріки Чжан та інші опублікували тестовий набір для економічних переговорів TERMS-Bench. Він усунув «чорний ящик» у вигляді «судді великих моделей», дозволяючи оцінювачам безпосередньо бачити, де саме модель програє — у цінових пропозиціях, поступках чи порушеннях.
У звичайних тестах перші два місця зайняли Claude Opus 4.6 та інтелектуальна модель GLM 5.1. У статті виявлено, що вони застосовували жорстку стратегію «високі ставки, наполегливо не поступатися», щоб виснажити суперника у вигідних для себе ситуаціях.
Але при найвищій складності з мінімальним запасом прибутку жорстка стратегія починає програвати через часті провали переговорів. Таблиця лідерів тут зазнала краху: модель Gemma 4 31B (відкрита модель з вагами) та Gemini 3.1 Pro, які вміють помірковано поступатися, обігнали і посіли перші два місця; тоді як колишні лідери Claude опустилися на 5-те, а GLM — на 9-те.
Крім тестування на екстремальну складність, найбільш вражаючим є тест на виживання у режимі Bankroll (фінансовий пул). Одна переговорна сесія розтягується на безперервні закупівлі: кожен агент отримує 100 доларів і веде 50 раундів переговорів, кожен з яких має фіксовані операційні витрати, і при втраті всіх грошей він оголошується банкрутом.
Тут навіть найменша помилка у переговорах може призвести до ланцюгової реакції банкрутства.
Результати показали, що згадані вище GLM 5.1, Claude Opus 4.6 та дві моделі Google — попри різну стратегію — мають найкращі навички контролю ситуації, всі пройшли 100% і вижили, їхній кінцевий капітал склав від 380 до 443 доларів.
У порівнянні з цим, Grok 4.20 та GPT-4o-mini не змогли витримати втрати і ризик банкрутства, їхні показники банкрутства становили відповідно 25% і 50%.
Ключовий аспект TERMS-Bench полягає не у рівні успішних угод, а у перетворенні помилок у переговорах у фінансові збитки та ризик банкрутства.
Чи може модель переконати опонента — це лише перший рівень; справжня різниця полягає у здатності зберегти прибуток і готівку у серії послідовних угод.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
84.02K Популярність
#
CryptoMarketDrops150KLiquidated
50.17M Популярність
#
IsraelStrikesIranBTCPlunges
47.43K Популярність
#
#DailyPolymarketHotspot
984.4K Популярність
#
ZEC/HYPE/FLRStrength
3.83M Популярність

Закріплено

карта сайту

Гугл-двійка у складній ситуації перехопила лідерство, TERMS-Bench перетворює переговори з AI у тест на банкрутство

Популярні теми

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Закріплено