Melihat hasilnya, model terbaik masih jauh dari manusia, jadi saya menjadi tenang.

Lihat Asli
MeNews
Tim NUS merilis tolok ukur GameWorld, mengevaluasi agen AI multimodal di 34 game browser
Tim NUS merilis standar GameWorld, yang mencakup 34 game browser, 170 tugas, dilengkapi dengan indikator yang dapat diverifikasi untuk penilaian objektif. Menguji dua jenis antarmuka proxy: computer-use yang langsung menggunakan perintah keyboard-mouse dan proxy multimodal umum yang beroperasi dalam ruang semantik. Empiris dari 18 kombinasi model-antarmuka menunjukkan bahwa bahkan yang terbaik pun jauh dari manusia, dan menghadapi tantangan dalam latensi waktu nyata, sensitivitas memori konteks, dan efektivitas tindakan. Makalah terkait dan kode telah dipublikasikan di HuggingFace dan GitHub.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan