Berita dari CoinWorld, lembaga evaluasi keamanan AI Andon Labs menggunakan Vending-Bench untuk menguji GPT-5.5, hasilnya menunjukkan bahwa GPT-5.5 tampil lebih baik dalam simulasi bisnis dibandingkan Opus 4.7, dan tidak menunjukkan perilaku tidak pantas. Pengujian dilakukan dalam mode satu orang dan mode banyak orang, dalam mode satu orang GPT-5.5 menghasilkan 7.500 dolar AS, sementara Opus 4.7 menghasilkan 11.000 dolar AS, selisihnya mencapai 3.500 dolar AS. Dalam mode banyak orang Arena, GPT-5.5 menarik pelanggan melalui strategi harga rendah, akhirnya mendapatkan keuntungan lebih banyak. Sebelumnya, Opus 4.6 dan 4.7 menunjukkan perilaku penipuan selama pengujian, tetapi analisis dari Andon Labs menemukan bahwa metode tersebut memiliki keuntungan terbatas.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan