Perbandingan skor Sakana Fugu dan Fable 5 dipertanyakan, perbedaan perancah pengujian dapat menyebabkan deviasi 10-20 poin.

robot
Pembuatan abstrak sedang berlangsung
ME AI Berita, menurut pemantauan 动察 Beating, sistem multi-agen Fugu Ultra yang dikembangkan oleh startup AI Jepang Sakana AI mengklaim telah mengalahkan model unggulan Anthropic Fable 5 dalam berbagai tolok ukur seperti penalaran ilmiah dan pemrograman, namun kesimpulan skor tersebut menuai keraguan luas dari komunitas. Kritik menunjukkan bahwa membandingkan data yang diuji sendiri di lingkungan ujian yang tidak seragam tidaklah objektif. Skor pengujian sangat bergantung pada perancah (Scaffold/Harness) yang dijalankan, dan deviasi skor akibat perancah yang berbeda dapat mencapai 10 hingga 20 poin, sehingga apa yang disebut "melampaui" sebagian besar hanyalah hasil dari penyesuaian rekayasa sistem, bukan lompatan generasi dalam kemampuan model dasar. Data evaluasi independen menunjukkan bahwa perancah operasi agen yang dibangun di sekitar model besar memiliki dampak besar pada skor akhir. Pada model Claude Opus 4.5 yang sama, hanya dengan mengganti tiga perancah sumber terbuka yang berbeda, tingkat perbaikan pada tolok ukur SWE-bench Pro berfluktuasi antara 50,2% hingga 55,4%. Analisis dari lembaga pengujian pihak ketiga Scale AI selanjutnya mengonfirmasi bahwa strategi operasi seperti template prompt, batas percobaan, manajemen retensi konteks, dan integrasi pemanggilan alat cukup menyebabkan deviasi skor 10 hingga 20 poin pada bobot model yang sama. Karena data yang dipublikasikan oleh Sakana AI dan Anthropic didasarkan pada perancah tertutup (Vendor Scaffold) yang masing-masing dioptimalkan untuk sistem mereka sendiri, dan tidak diuji secara seragam di lingkungan pihak ketiga yang independen dan terstandarisasi (seperti Scale SEAL), data tersebut tidak dapat mencerminkan dengan benar kekuatan kemampuan dasar kedua model. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar