Tim Berkeley mengumumkan telah menembus 8 tolok ukur utama penilaian agen cerdas dan merilis alat sumber terbuka

ME News Berita, 19 April (UTC+8), kelompok penelitian kecerdasan buatan Berkeley (berkeley_ai) mengutip pernyataan Dawn Song, mengumumkan bahwa timnya berhasil menembus 8 tolok ukur utama penilaian agen cerdas. Tim memutuskan untuk merilis alat yang digunakan untuk mencapai hasil ini secara open source, dan menamainya BenchJack. Alat ini digambarkan sebagai "pengujian penetrasi terhadap penilaian", bertujuan membantu pengembang lain secara aktif menguji dan menemukan potensi kelemahan dalam sistem penilaian mereka sendiri. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-46033407
· 5jam yang lalu
Dawn Song benar-benar kokoh di bidang persilangan keamanan dan AI, kali ini kembali menyentuh poin penting
Lihat AsliBalas0
GateUser-f2d5f4c0
· 6jam yang lalu
Alat sumber terbuka lebih berharga daripada makalah penelitian, setidaknya memungkinkan semua orang untuk memeriksa sendiri apakah benchmark benar-benar dapat diandalkan
Lihat AsliBalas0
ThePatienceRequiredFor
· 6jam yang lalu
8 standar utama semuanya terkalahkan, rasanya sekarang pelindung kota eval agen lebih dangkal dari yang dibayangkan
Lihat AsliBalas0
GovernanceVotingTug-Of-WarKing
· 6jam yang lalu
Terkait konsep pengujian penetrasi untuk evaluasi, ini cukup baru, sebelumnya selalu menguji model, sekarang menguji soal itu sendiri
Lihat AsliBalas0
NeonIceMelt
· 7jam yang lalu
Tim Dawn Song ini sangat Berkeley, pertama menyerang lalu membuka sumber, ciri khas hacker akademik
Lihat AsliBalas0
DustyAlpha
· 7jam yang lalu
berkeley_ai menunjukkan keberanian besar, menantikan untuk melihat bagaimana mereka benar-benar melewati evaluasi ini
Lihat AsliBalas0
Wax-SealedPrivateKey
· 7jam yang lalu
BenchJack nama ini agak menarik, sistem penilaian juga perlu melakukan pengujian penetrasi sendiri.
Lihat AsliBalas0
  • Disematkan