Secara singkat ARFBench adalah benchmark AI pertama yang dibangun sepenuhnya dari insiden produksi nyata. GPT-5 memimpin semua model AI yang ada dengan akurasi 62,7% tetapi kalah dari para ahli domain dengan 72,7%. Sebuah model-oracle teoretis—menggabungkan AI dan penilaian manusia—mencapai 87,2% akurasi, menetapkan the

Decrypt

2026-05-18 21:11:18

Singkatnya

ARFBench adalah tolok ukur AI pertama yang dibangun sepenuhnya dari insiden produksi nyata.
GPT-5 memimpin semua model AI yang ada dengan akurasi 62,7% tetapi masih di bawah para ahli domain dengan 72,7%.
Sebuah model-penasihat ahli-teoretis—menggabungkan AI dan penilaian manusia—mencapai 87,2% akurasi, menetapkan batas tertinggi apa yang bisa dicapai oleh tim kolaboratif AI-manusia.

Perusahaan AI terus mempromosikan agen insinyur keandalan situs otomatis—AI yang menyelidiki insiden produksi menggantikan manusia. Datadog menjalankan tolok ukur nyata pada gangguan nyata, dan model AI terbaik belum mampu mengalahkan insinyur yang seharusnya mereka gantikan. Tolok ukur ini adalah ARFBench (Anomaly Reasoning Framework Benchmark), sebuah proyek bersama dari Datadog dan Carnegie Mellon. Dibangun dari 63 insiden produksi nyata, diambil dari thread Slack insinyur selama keadaan darurat langsung—750 pertanyaan pilihan ganda yang mencakup 142 metrik pemantauan dan 5,38 juta data poin, setiap pertanyaan diverifikasi secara manual. Tidak ada data sintetis. Tidak ada skenario buku teks. “Triliunan dolar hilang setiap tahun akibat gangguan sistem,” tulis para peneliti. Tolok ukur ini menguji apakah AI benar-benar dapat membantu mengubah hal tersebut.

“Terlepas dari peran sentral analisis berbasis pertanyaan dalam respons insiden, masih belum jelas apakah model dasar modern dapat secara andal menjawab pertanyaan deret waktu yang diajukan insinyur dalam praktik,” tulis makalah tersebut. Pertanyaan terbagi dalam tiga tingkat. Tingkat I: Apakah ada anomali dalam grafik ini? Tingkat II: Kapan mulai, seberapa parah, jenis apa?
Tingkat III—yang paling sulit—memerlukan penalaran lintas metrik: Apakah grafik ini menyebabkan masalah di grafik lain? Di situlah AI gagal. GPT-5 hanya mendapatkan 47,5% F1 pada pertanyaan Tingkat III, sebuah metrik yang memberi penalti pada model karena menebak jawaban paling umum.

“Terlepas dari peran sentral analisis berbasis pertanyaan dalam respons insiden, masih belum jelas apakah model dasar modern dapat secara andal menjawab pertanyaan deret waktu yang diajukan insinyur dalam praktik,” tulis para peneliti. Bagaimana setiap model dibandingkan GPT-5 memimpin semua model yang ada dengan 62,7% akurasi—pada tes di mana tebakan acak mendapatkan 24,5%. Gemini 3 Pro mendapatkan 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%.
Para ahli domain mencapai 72,7% akurasi. Non-ahli domain—peneliti deret waktu di Datadog tanpa pengalaman observabilitas yang luas—masih meraih 69,7%.
Tidak ada model AI yang mengalahkan kedua baseline manusia tersebut.

Gambar dibuat oleh Decrypt berdasarkan CSV papan peringkat ARFBench

Model yang benar-benar menduduki puncak papan peringkat adalah hybrid milik Datadog sendiri: Toto—model peramalan deret waktunya—digabungkan dengan Qwen3-VL 32B. Toto-1.0-QA-Experimental mencapai 63,9% akurasi, melampaui GPT-5 dengan menggunakan sebagian kecil dari parameternya. Khusus untuk identifikasi anomali, model ini mengungguli semua model lain minimal 8,8 poin persentase dalam F1. Model domain yang dibangun khusus, dilatih pada data observabilitas, mengungguli sistem umum terdepan dalam tugas spesifik ini adalah hasil yang diharapkan. Itulah intinya. Temuan paling berharga bukanlah model mana yang mendapatkan skor tertinggi. “Kami mengamati profil kesalahan yang sangat berbeda antara model terdepan dan ahli manusia, menunjukkan bahwa kekuatan mereka saling melengkapi,” tulis para peneliti. Model sering berhalusinasi, melewatkan metadata, dan kehilangan konteks domain. Manusia salah membaca cap waktu yang tepat dan kadang gagal dalam instruksi kompleks. Kesalahan mereka hampir tidak tumpang tindih.

Bayangkan sebuah “Model-Penasihat Ahli-Teoretis”—hakim sempurna yang selalu memilih jawaban yang benar antara AI dan manusia—dan Anda mendapatkan 87,2% akurasi dan 82,8% F1. Jauh di atas keduanya sendiri. Itu bukan produk. Itu adalah target yang didokumentasikan—dibangun dari keadaan darurat nyata, bukan dataset yang dikurasi—yang mengukur seberapa jauh kolaborasi manusia-AI bisa berkinerja lebih baik. Papan peringkat ini aktif di Hugging Face. GPT-5 berada di 62,7%. Batas atasnya adalah 87,2%.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.