ME News Berita, 16 April (UTC+8), menurut pemantauan Beating dari Dongcha, lembaga penilaian keamanan AI METR memperbarui standar “Garis Waktu” (Time Horizon), menambahkan data pengujian Google Gemini 3.1 Pro. Standar ini melacak batas kemampuan agen AI terdepan dalam menyelesaikan tugas pemrograman secara mandiri, dan sejak diluncurkan pada Februari tahun ini telah menjadi referensi penting dalam mengukur pertumbuhan kemampuan agen AI.
Metode pengukuran adalah dengan meminta ahli rekayasa perangkat lunak manusia (rata-rata pengalaman sekitar 5 tahun) dan agen AI menyelesaikan lebih dari seratus tugas perangkat lunak yang sama, menggunakan waktu manusia sebagai ukuran tingkat kesulitan tugas.
Dua indikator utama adalah: Garis Waktu 50% (kemungkinan AI menyelesaikan tugas dengan tingkat kesulitan tertinggi dalam waktu tertentu) dan Garis Waktu 80% (kemungkinan AI menyelesaikan tugas dengan tingkat kesulitan tertinggi dalam waktu tertentu).
Gemini 3.1 Pro menunjukkan peringkat yang berbalik pada kedua indikator tersebut.
Garis Waktu 50% menempati posisi kedua, hanya di bawah Claude Opus 4.6 yang sangat unggul:

Claude Opus 4.6: sekitar 12,0 jam
Gemini 3.1 Pro: sekitar 6,4 jam
GPT-5.2: sekitar 5,9 jam
GPT-5.4: sekitar 5,7 jam
Namun, pada Garis Waktu 80% yang lebih ketat, Gemini 3.1 Pro melampaui dan menduduki puncak:
Gemini 3.1 Pro: sekitar 1,5 jam
Claude Opus 4.6: sekitar 1,2 jam
GPT-5.2: sekitar 1,1 jam
Claude Opus 4.6 mampu menantang tugas yang lebih sulit tetapi tingkat keberhasilannya fluktuatif, sementara Gemini 3.1 Pro memiliki batas atas yang lebih rendah tetapi lebih stabil dalam kemampuan.
Dalam skenario produksi yang membutuhkan hasil yang dapat diprediksi, yang terakhir mungkin lebih praktis.
Dibandingkan dengan generasi sebelumnya, Gemini 3 Pro (Garis Waktu 50% sekitar 3,7 jam), Gemini 3.1 Pro meningkat sekitar 71%.
Dari sudut pandang garis waktu yang lebih panjang, data METR menunjukkan bahwa garis waktu model terdepan meningkat dari beberapa detik GPT-2 pada 2019 menjadi lebih dari sepuluh jam saat ini, dengan perkiraan setiap 4,3 bulan mengalami penggandaan, dan METR menyatakan “tidak melihat tanda-tanda perlambatan pertumbuhan eksponensial”.
Perlu dicatat bahwa tugas METR mencakup rekayasa perangkat lunak, pembelajaran mesin, dan keamanan jaringan, semuanya merupakan tugas terpisah yang definisinya jelas dan dapat dinilai secara otomatis.
Dalam penelitian lanjutan, METR menemukan bahwa ketika metode penilaian diubah dari penilaian algoritma menjadi penilaian manusia secara keseluruhan, performa AI menurun secara signifikan.
Garis waktu 12 jam tidak berarti AI dapat menggantikan manusia selama setengah hari kerja.
(Sumber: BlockBeats)

ME2,66%

4-3,34%

GOOGLX-0,77%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.67M Popularitas
#
IsraelStrikesIranBTCPlunges
46.68K Popularitas
#
#DailyPolymarketHotspot
937.15K Popularitas
#
JaneStreetReducesBitcoinETFHoldings
105.17K Popularitas
#
TrumpVisitsChina
63.39K Popularitas

Disematkan

peta situs

METR memperbarui standar kemampuan agen AI, Gemini 3.1Pro keandalan melebihi semua model terdepan dan menduduki puncak

Topik Trending

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Disematkan