Duo Raksasa Google menghadapi tantangan sulit untuk unggul kembali, TERMS-Bench menjadikan negosiasi AI sebagai pengujian tekanan kebangkrutan

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, Stanford Erica Zhang dan lainnya merilis kumpulan pengujian negosiasi ekonomi TERMS-Bench.
Ini menghilangkan “hakim model besar” sebagai kotak hitam, sehingga evaluator dapat langsung melihat apakah model kalah karena penawaran, kompromi, atau pelanggaran.
Dalam pengujian reguler, Claude Opus 4.6 dan Zhipu GLM 5.1 menduduki posisi teratas.
Makalah menemukan bahwa mereka menggunakan strategi keras “menawarkan lebih tinggi, tidak mau mengalah” yang keras, mampu menguras lawan dalam situasi menguntungkan secara keuntungan.
Namun, dalam situasi dengan margin keuntungan yang sangat sempit di tingkat kesulitan tertinggi, strategi keras ini merugikan karena sering gagal dalam negosiasi.
Daftar peringkat langsung mengalami kegagalan: Gemma 4 31B (model bobot terbuka) dan Gemini 3.1 Pro yang tahu memberi kompromi yang tepat untuk menjaga pesanan melampaui, dan menempati posisi teratas;
sementara pendahulu sebelumnya, Claude, jatuh ke posisi ke-5, dan GLM ke posisi ke-9.
Selain pengujian tingkat ekstrem, standar ini yang paling berdampak adalah pengujian kemampuan bertahan dalam mode Bankroll (kumpulan dana).
Negosiasi tunggal diperpanjang menjadi pembelian berkelanjutan: setiap Agen mendapatkan modal awal 100 dolar dan bernegosiasi selama 50 periode, setiap periode dipotong biaya operasional tetap, dan bangkrut jika kehabisan uang.
Di sini, kesalahan kecil dalam negosiasi dapat berkembang menjadi krisis kebangkrutan karena bunga majemuk.
Hasilnya menunjukkan bahwa GLM 5.1, Claude Opus 4.6, dan duo Google meskipun memiliki strategi berbeda, tetapi kemampuan mengendalikan situasi sangat unggul, semuanya bertahan 100%, dan uang tunai akhir berkisar antara 380 hingga 443 dolar.
Sebaliknya, Grok 4.20 dan GPT-4o-mini tidak mampu menahan kerugian arus kas, dengan tingkat kebangkrutan masing-masing mencapai 25% dan 50%.
Kunci TERMS-Bench bukan pada tingkat keberhasilan transaksi, tetapi pada mengubah kesalahan negosiasi menjadi kerugian uang tunai dan risiko kebangkrutan.
Model apakah mampu meyakinkan lawan hanyalah lapisan pertama; dalam transaksi berkelanjutan, apakah mampu menjaga keuntungan dan arus kas, itulah yang benar-benar membedakan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan