Apakah AI dapat menggantikan analis keuangan? Tes versi terbaru Vals AI seluruhnya gagal total, GPT 5.5 dengan tingkat akurasi yang nyaris setengahnya

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, lembaga evaluasi AI Vals AI merilis standar pengujian agen keuangan generasi kedua (Finance Agent v2). Ini adalah pengujian end-to-end yang mensimulasikan alur kerja analis keuangan tingkat dasar, mencakup 927 pertanyaan tinjauan ahli. Versi baru dari pengujian ini meningkatkan tingkat kesulitan secara signifikan, dengan GPT 5.5 hanya meraih akurasi 51,76% untuk menjadi yang teratas, bersaing ketat dengan Claude Opus 4.7 (51,51%) dan Claude Sonnet 4.6 (51,03%).

Berbeda dengan pertanyaan satu putaran, pengujian ini menuntut model untuk secara mandiri mencari paragraf terkait dalam laporan keuangan 10-K dan 10-Q yang berjumlah ratusan halaman, menangani penyesuaian laporan keuangan antar tahun, dan menyelesaikan perhitungan multi-langkah dengan angka tengah yang tepat. Vals AI mengungkapkan bahwa jika menggunakan standar penilaian yang ketat dengan syarat “harus benar sepenuhnya”, semua model terdepan mengalami penurunan akurasi di bawah 40%; dalam kategori yang paling sulit seperti “pemodelan keuangan” dan “analisis preseden”, skor tertinggi hanya mencapai 23%.

Dalam hal model lain, Kimi K2.6 berada di posisi kelima dengan skor 44,87%, menjadi model domestik dengan skor tertinggi; diikuti oleh GLM 5.1 (44,79%) dan DeepSeek V4 (44,08%). Selain itu, pihak resmi memberikan label “kecepatan tercepat” kepada Claude Opus 4.7 (waktu satu kali pengujian 360 detik), sementara GLM 5.1 mendapatkan label “anggaran paling hemat” (biaya per pengujian 0,62 dolar AS).

Penurunan skor kolektif dalam pengujian kali ini (versi sebelumnya Opus 4.7 meraih 64,4%) membuktikan satu hal: AI saat ini sudah mampu menangani pencarian sederhana, tetapi dalam kedalaman keuangan yang membutuhkan kepatuhan terhadap kebiasaan industri tertentu dan ketelitian angka yang sangat tinggi, AI masih jauh dari mampu menggantikan analis manusia.

4-2,5%
GLM-0,91%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan