METR memperbarui standar kemampuan agen AI, Gemini 3.1Pro keandalan melebihi semua model terdepan dan menduduki puncak

robot
Pembuatan abstrak sedang berlangsung

ME News Berita, 16 April (UTC+8), menurut pemantauan Beating dari Dongcha, lembaga penilaian keamanan AI METR memperbarui standar “Garis Waktu” (Time Horizon), menambahkan data pengujian Google Gemini 3.1 Pro. Standar ini melacak batas kemampuan agen AI terdepan dalam menyelesaikan tugas pemrograman secara mandiri, dan sejak diluncurkan pada Februari tahun ini telah menjadi referensi penting dalam mengukur pertumbuhan kemampuan agen AI.
Metode pengukuran adalah dengan meminta ahli rekayasa perangkat lunak manusia (rata-rata pengalaman sekitar 5 tahun) dan agen AI menyelesaikan lebih dari seratus tugas perangkat lunak yang sama, menggunakan waktu manusia sebagai ukuran tingkat kesulitan tugas.
Dua indikator utama adalah: Garis Waktu 50% (kemungkinan AI menyelesaikan tugas dengan tingkat kesulitan tertinggi dalam waktu tertentu) dan Garis Waktu 80% (kemungkinan AI menyelesaikan tugas dengan tingkat kesulitan tertinggi dalam waktu tertentu).
Gemini 3.1 Pro menunjukkan peringkat yang berbalik pada kedua indikator tersebut.
Garis Waktu 50% menempati posisi kedua, hanya di bawah Claude Opus 4.6 yang sangat unggul:

  1. Claude Opus 4.6: sekitar 12,0 jam
  2. Gemini 3.1 Pro: sekitar 6,4 jam
  3. GPT-5.2: sekitar 5,9 jam
  4. GPT-5.4: sekitar 5,7 jam
    Namun, pada Garis Waktu 80% yang lebih ketat, Gemini 3.1 Pro melampaui dan menduduki puncak:
  5. Gemini 3.1 Pro: sekitar 1,5 jam
  6. Claude Opus 4.6: sekitar 1,2 jam
  7. GPT-5.2: sekitar 1,1 jam
    Claude Opus 4.6 mampu menantang tugas yang lebih sulit tetapi tingkat keberhasilannya fluktuatif, sementara Gemini 3.1 Pro memiliki batas atas yang lebih rendah tetapi lebih stabil dalam kemampuan.
    Dalam skenario produksi yang membutuhkan hasil yang dapat diprediksi, yang terakhir mungkin lebih praktis.
    Dibandingkan dengan generasi sebelumnya, Gemini 3 Pro (Garis Waktu 50% sekitar 3,7 jam), Gemini 3.1 Pro meningkat sekitar 71%.
    Dari sudut pandang garis waktu yang lebih panjang, data METR menunjukkan bahwa garis waktu model terdepan meningkat dari beberapa detik GPT-2 pada 2019 menjadi lebih dari sepuluh jam saat ini, dengan perkiraan setiap 4,3 bulan mengalami penggandaan, dan METR menyatakan “tidak melihat tanda-tanda perlambatan pertumbuhan eksponensial”.
    Perlu dicatat bahwa tugas METR mencakup rekayasa perangkat lunak, pembelajaran mesin, dan keamanan jaringan, semuanya merupakan tugas terpisah yang definisinya jelas dan dapat dinilai secara otomatis.
    Dalam penelitian lanjutan, METR menemukan bahwa ketika metode penilaian diubah dari penilaian algoritma menjadi penilaian manusia secara keseluruhan, performa AI menurun secara signifikan.
    Garis waktu 12 jam tidak berarti AI dapat menggantikan manusia selama setengah hari kerja.
    (Sumber: BlockBeats)
ME2,66%
4-3,34%
GOOGLX-0,77%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan