GPT-5.4, 「Agent asli」 model besar sedang datang?

robot
Pembuatan abstrak sedang berlangsung

OpenAI akhirnya mengerti.

Hanya dua hari setelah rumor beredar, pada 5 Maret waktu setempat, OpenAI secara resmi meluncurkan GPT-5.4. Dan pembaruan model kali ini menonjolkan arah AI Agent yang sedang sangat populer saat ini.

Sebelum GPT-5.4, batas kemampuan model besar bisa dirangkum dalam satu kalimat: mereka bisa memberi tahu kamu “bagaimana melakukannya”, tetapi mereka sendiri tidak bisa melakukannya.

Kamu minta mereka membantu menganalisis pesaing, mereka akan memberi laporan teks yang panjang dan rinci; kamu minta mereka mengatur Excel, mereka akan menulis kode Python agar kamu bisa menjalankannya sendiri; kamu minta mereka memesan tiket pesawat, mereka akan memberi tahu langkah demi langkah situs mana yang harus dikunjungi dan tombol mana yang harus diklik.

Tembok di tengah, disebut “Operasi Komputer”.

GPT-5.4 adalah model umum pertama dari OpenAI yang mampu merobohkan tembok ini.

GPT-5.4 dibandingkan model sebelumnya memiliki peningkatan|sumber gambar: OpenAI

Ia dapat mengenali isi layar melalui tangkapan layar, mengirim perintah mouse dan keyboard, serta menjalankan alur kerja multi-langkah di berbagai aplikasi. Menurut OpenAI sendiri, ini adalah “model paling kuat dan efisien untuk pekerjaan profesional yang pernah ada”.

Secara teknis, GPT-5.4 mendukung jendela konteks hingga 1 juta token, dan dapat memanggil pustaka seperti Playwright untuk mengendalikan browser dan aplikasi desktop secara langsung.

Ini berarti ia tidak lagi sekadar “berdialog tentang tugas”, tetapi “mengelola tugas itu sendiri”.

01 Landasan OpenAI

Jika kamu mengikuti langkah terbaru OpenAI selama beberapa bulan terakhir, kamu akan menyadari bahwa GPT-5.4 bukan produk yang muncul secara tiba-tiba, melainkan bagian dari strategi yang jelas dan terencana.

Dua minggu lalu, OpenAI baru saja merilis GPT-5.3-Codex, yang meningkatkan Codex dari “Agent yang bisa menulis kode” menjadi “Agent yang hampir bisa melakukan semua hal pengembang di komputer”, dan memecahkan rekor di SWE-Bench Pro serta Terminal-Bench.

Sementara itu, OpenAI meluncurkan platform perusahaan bernama “Frontier”, dengan HP, Intuit, Uber sebagai pengguna awalnya.

GPT-5.4 secara signifikan lebih pintar dalam mengisi tabel dibandingkan versi 5.2|sumber gambar: OpenAI

Lebih awal lagi, pada 2 Maret, OpenAI dan AWS memperluas kerjasama dari 3,8 miliar dolar menjadi lebih dari 100 miliar dolar selama 8 tahun, dengan AWS menjadi distributor cloud pihak ketiga eksklusif untuk platform OpenAI Frontier. Skala dana ini sendiri sudah menjadi sinyal.

Putaran pendanaan terbaru sebesar 110 miliar dolar didukung oleh Amazon, SoftBank, dan Nvidia yang masing-masing menyumbang ratusan miliar dolar, dan juga berlangsung bersamaan.

Ini bukan perusahaan yang hanya fokus “mengembangkan produk bagus”, melainkan perusahaan yang sedang berusaha keras “menguasai pasar AI Agent perusahaan”.

Kemampuan operasi komputer asli dari GPT-5.4 adalah senjata utama dalam upaya ini.

02 Apakah benar-benar berguna?

Demo fitur saat peluncuran selalu terlihat mengesankan, tetapi kenyataannya tergantung pada performa nyata.

Perusahaan fintech Walleye Capital melaporkan dalam pengujian internal bahwa GPT-5.4 meningkatkan akurasi evaluasi model keuangan Excel sebesar 30 poin persentase, mempercepat otomatisasi analisis skenario secara signifikan.

CEO platform penilaian talenta Mercor menyebutnya sebagai “model terbaik yang pernah kami uji”, menunjukkan performa yang menonjol dalam tugas jangka panjang seperti pembuatan slide, pemodelan keuangan, dan analisis hukum.

Seorang pengembang independen yang menggunakan Codex setiap hari memberikan penilaian yang lebih realistis: “GPT-5.4 adalah rutinitas baru saya di Codex. Cara berpikirnya lebih mirip manusia, tidak terlalu terobsesi dengan detail teknis seperti 5.3.” Tapi dia juga memberi peringatan—“Hati-hati, saya pernah mengalami model yang salah menjalankan tugas dan menyembunyikan fakta tersebut.”

GPT-5.4 dalam hal operasi dan visualisasi menunjukkan peningkatan|sumber gambar: OpenAI

Detail ini patut diperhatikan.

Data benchmark juga mendukung peningkatan kemampuan ini. Dilaporkan bahwa GPT-5.4 di atas rata-rata 83% dari pekerja kantor biasa dalam pengujian GDPval. Angka ini terdengar mengesankan, tetapi pertanyaan utama bukanlah “berapa banyak orang yang bisa dilampaui”, melainkan “dalam tugas apa saja bisa menggantikan manusia”.

Namun, Dr. Jeff Dalton dari School of Informatics, University of Edinburgh, menyoroti masalah nyata—dalam demo saat ini, hampir tidak ada bukti evaluasi yang cukup rinci untuk mendukung klaim besar tersebut. Kemampuan memang nyata, tetapi batasnya masih perlu diverifikasi lebih banyak secara independen.

03 Arena Agent, Tidak Ada Zona Aman

Jika GPT-5.4 mewakili ambisi OpenAI terhadap Agent, maka pesaing-pesaing mereka tidak tinggal diam.

Anthropic dengan Claude 3.7 Sonnet sudah meluncurkan fitur “Computer Use” sejak Februari lalu, dan mereka menempatkannya sebagai model hybrid reasoning yang dirancang untuk tugas kompleks.

Google dengan seri Gemini 2.0 juga terus mengembangkan kemampuan “Agentic”, dan Project Mariner sudah mampu melakukan otomatisasi multi-langkah di Chrome.

Namun, perbedaan mendasar antara GPT-5.4 dan kompetitor adalah bahwa ini adalah produk pertama dari OpenAI yang mengintegrasikan kemampuan operasi komputer secara bawaan ke dalam model umum—bukan alat terpisah, bukan API yang harus dipanggil secara terpisah, tetapi kemampuan yang sudah tertanam di dalam model itu sendiri.

Kata “native” ini, dalam konteks rekayasa, berarti apa? Singkatnya, latensi lebih rendah, alur tugas lebih alami, dan kode “lem” yang lebih sedikit. Bagi perusahaan yang ingin cepat menerapkan Agent, perbedaan ini langsung mempengaruhi biaya deployment.

OpenAI juga mengumumkan bahwa GPT-5.4 dapat langsung terhubung ke Microsoft Excel dan Google Sheets, melakukan analisis dan otomatisasi di tingkat sel. Langkah ini jelas menyasar inti proses pengambilan keputusan perusahaan.

Arena Agent bukanlah soal siapa yang tercepat, tetapi siapa yang paling cepat menanamkan dirinya ke dalam alur kerja perusahaan, menjadi “keberadaan yang tak bisa dicopot”.

Peluncuran teknologi selalu penuh semangat, tetapi ujian sesungguhnya adalah hari ke-91—ketika hype mereda, pengguna membuka alat ini dalam situasi kerja nyata, apakah ia mampu menjaga tangkapan layar, menekan tombol yang tepat, menyelesaikan tugas dengan tenang, dan mengembalikan hasilnya.

Perkataan pengembang tentang “menyembunyikan kesalahan” adalah hal paling patut diwaspadai dari laporan ini.

Batas kemampuan AI Agent bukanlah “apa yang bisa mereka lakukan”, tetapi “seberapa percaya kita untuk membiarkan mereka melakukannya”.

Kepercayaan adalah mata uang sebenarnya dalam perang Agent ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan