TERMS-Bench menghapus hakim kotak hitam, langsung menilai kemampuan nyata model dalam penawaran, konsesi, dan pelanggaran. Dalam pengujian reguler, Claude Opus 4.6 dan GLM 5.1 menang dengan menawar lebih tinggi, tetapi dalam tingkat kesulitan tertinggi sering mengalami kerugian karena sering gagal negosiasi; Gemma 4 31B dan Gemini 3.1 Pro melampaui, Claude dan GLM menurun. Mode Bankroll mengubah perdagangan berkelanjutan menjadi arus kas dan risiko kebangkrutan, yang penting. GLM 5.1, Claude Opus 4.6, dan Google duo memiliki tingkat kelangsungan hidup tinggi, kas mencapai 380–443 dolar; Grok 4.20 dan GPT-4o-mini cenderung bangkrut.

MarsBitNews

2026-05-18 06:45:30

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Stanford Erica Zhang dan lainnya merilis kumpulan pengujian negosiasi ekonomi TERMS-Bench.
Ini menghilangkan “hakim model besar” sebagai kotak hitam, sehingga evaluator dapat langsung melihat apakah model kalah karena penawaran, kompromi, atau pelanggaran.
Dalam pengujian reguler, Claude Opus 4.6 dan Zhipu GLM 5.1 menduduki posisi teratas.
Makalah menemukan bahwa mereka menggunakan strategi keras “menawarkan lebih tinggi, tidak mau mengalah” yang keras, mampu menguras lawan dalam situasi menguntungkan secara keuntungan.
Namun, dalam situasi dengan margin keuntungan yang sangat sempit di tingkat kesulitan tertinggi, strategi keras ini merugikan karena sering gagal dalam negosiasi.
Daftar peringkat langsung mengalami kegagalan: Gemma 4 31B (model bobot terbuka) dan Gemini 3.1 Pro yang tahu memberi kompromi yang tepat untuk menjaga pesanan melampaui, dan menempati posisi teratas;
sementara pendahulu sebelumnya, Claude, jatuh ke posisi ke-5, dan GLM ke posisi ke-9.
Selain pengujian tingkat ekstrem, standar ini yang paling berdampak adalah pengujian kemampuan bertahan dalam mode Bankroll (kumpulan dana).
Negosiasi tunggal diperpanjang menjadi pembelian berkelanjutan: setiap Agen mendapatkan modal awal 100 dolar dan bernegosiasi selama 50 periode, setiap periode dipotong biaya operasional tetap, dan bangkrut jika kehabisan uang.
Di sini, kesalahan kecil dalam negosiasi dapat berkembang menjadi krisis kebangkrutan karena bunga majemuk.
Hasilnya menunjukkan bahwa GLM 5.1, Claude Opus 4.6, dan duo Google meskipun memiliki strategi berbeda, tetapi kemampuan mengendalikan situasi sangat unggul, semuanya bertahan 100%, dan uang tunai akhir berkisar antara 380 hingga 443 dolar.
Sebaliknya, Grok 4.20 dan GPT-4o-mini tidak mampu menahan kerugian arus kas, dengan tingkat kebangkrutan masing-masing mencapai 25% dan 50%.
Kunci TERMS-Bench bukan pada tingkat keberhasilan transaksi, tetapi pada mengubah kesalahan negosiasi menjadi kerugian uang tunai dan risiko kebangkrutan.
Model apakah mampu meyakinkan lawan hanyalah lapisan pertama; dalam transaksi berkelanjutan, apakah mampu menjaga keuntungan dan arus kas, itulah yang benar-benar membedakan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
84.02K Popularitas
#
CryptoMarketDrops150KLiquidated
50.17M Popularitas
#
IsraelStrikesIranBTCPlunges
47.43K Popularitas
#
#DailyPolymarketHotspot
984.4K Popularitas
#
ZEC/HYPE/FLRStrength
3.83M Popularitas

Disematkan

peta situs

Duo Raksasa Google menghadapi tantangan sulit untuk unggul kembali, TERMS-Bench menjadikan negosiasi AI sebagai pengujian tekanan kebangkrutan

Topik Trending

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Disematkan