4.760 milestones dimasukkan, prediksi penemuan baru masih setara dengan lempar koin. Penalaran mekanisme sekuat apapun, menghadapi bidang tak berstandar jawaban tetap bingung.

Lihat Asli
CoinNetwork
AI saat ini belum bisa menjadi ilmuwan independen, penilaian CUSP mengungkapkan bahwa model besar kekurangan wawasan penelitian jangka panjang
Stanford/Oxford/Allen AI Research Institute meluncurkan standar urutan waktu CUSP, menilai kemampuan AI dalam meramalkan kemajuan ilmiah. Menguji GPT-5.4, Claude Sonnet 4.5, DeepSeek R1, dan lain-lain dalam memahami mekanisme penalaran jalur teknologi yang ada menunjukkan performa yang baik, tetapi meramalkan penemuan baru hampir bersifat acak, dan terdapat keterlambatan sistematis terhadap waktu terobosan. CUSP didasarkan pada pengetahuan urutan waktu, mengatur perkembangan terbaru dari Nature/Science, standar mencakup 4.760 tonggak sejarah dan 17.429 tugas. Kesimpulannya, dalam eksplorasi ilmiah yang tidak memiliki jawaban standar, model yang ada tidak dapat memberikan prediksi yang andal.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan