GPT-5.4, 「Agent asli」 model besar sedang datang?

robot
Pembuatan abstrak sedang berlangsung

Setelah hanya dua hari rumor beredar, pada tanggal 5 Maret waktu setempat, OpenAI secara resmi meluncurkan GPT-5.4. Dan pembaruan model kali ini menonjolkan arah AI Agent yang sedang sangat populer saat ini.

Sebelum GPT-5.4, batas kemampuan model besar bisa dirangkum dalam satu kalimat: mereka bisa memberi tahu kamu “bagaimana melakukannya”, tetapi mereka sendiri tidak bisa melakukannya.

Kamu memintanya membantu menganalisis pesaing, dia akan memberimu laporan teks yang panjang dan rinci; kamu memintanya mengatur Excel, dia akan menulis kode Python agar kamu bisa menjalankannya sendiri; kamu memintanya memesan tiket pesawat, dia akan memberitahumu langkah demi langkah situs mana yang harus dikunjungi, tombol mana yang harus diklik.

Tembok di tengah itu disebut “operasi komputer”.

GPT-5.4 adalah model umum pertama dari OpenAI yang mampu menghancurkan tembok ini.

GPT-5.4 dibandingkan model sebelumnya peningkatannya|sumber gambar: OpenAI

Model ini dapat mengenali isi layar melalui tangkapan layar, mengirimkan perintah mouse dan keyboard, serta menjalankan alur kerja multi-langkah di berbagai aplikasi. Dengan kata lain, ini adalah “model terdepan yang paling kuat dan efisien yang pernah ada untuk pekerjaan profesional,” menurut OpenAI sendiri.

Lebih teknis lagi, GPT-5.4 mendukung jendela konteks hingga 1 juta token, dan dapat memanggil pustaka seperti Playwright untuk mengendalikan browser dan aplikasi desktop secara langsung.

Ini berarti, yang diproses bukan lagi “percakapan tentang tugas”, melainkan “tugas itu sendiri”.

01 Landasan OpenAI

Jika kamu mengikuti langkah-langkah OpenAI dalam beberapa bulan terakhir, kamu akan menyadari bahwa GPT-5.4 bukan produk yang muncul secara tiba-tiba, melainkan bagian dari strategi yang jelas dan terencana.

Hanya dua minggu lalu, OpenAI baru saja merilis GPT-5.3-Codex, meningkatkan Codex dari “Agent yang bisa menulis kode” menjadi “Agent yang hampir bisa melakukan semua hal pengembang di komputer,” dan memecahkan rekor benchmark industri di SWE-Bench Pro dan Terminal-Bench.

Pada saat yang sama, OpenAI meluncurkan platform perusahaan bernama “Frontier,” dengan HP, Intuit, dan Uber sebagai pengguna awalnya.

GPT-5.4 jauh lebih pintar dalam mengisi formulir dibandingkan versi 5.2|sumber gambar: OpenAI

Lebih awal lagi, pada 2 Maret, OpenAI dan AWS memperluas kemitraan dari 3,8 miliar dolar menjadi lebih dari 100 miliar dolar, selama 8 tahun, dengan AWS menjadi distributor cloud pihak ketiga eksklusif untuk platform OpenAI Frontier. Skala dana sebesar ini sendiri sudah menjadi sinyal.

Putaran pendanaan terbaru sebesar 110 miliar dolar didukung oleh Amazon, SoftBank, dan Nvidia yang masing-masing menyumbang ratusan miliar dolar, dan juga terealisasi dalam waktu yang sama.

Ini bukan perusahaan yang hanya fokus “mengembangkan produk bagus,” melainkan perusahaan yang sedang berusaha keras “menguasai pasar AI Agent perusahaan.”

Kemampuan operasi komputer asli dari GPT-5.4 adalah senjata kunci dalam upaya ini.

02 Apakah benar-benar berguna?

Demo fitur saat peluncuran selalu terlihat mengesankan, tetapi masalahnya terletak pada performa nyata.

Perusahaan fintech Walleye Capital melaporkan dalam pengujian internal bahwa GPT-5.4 meningkatkan akurasi dalam evaluasi model keuangan Excel sebesar 30 poin persentase, secara signifikan mempercepat proses otomatisasi analisis skenario.

CEO platform penilaian talenta Mercor menyebutnya sebagai “model terbaik yang pernah kami uji,” karena tampil luar biasa dalam tugas-tugas siklus panjang seperti pembuatan slide, pemodelan keuangan, dan analisis hukum.

Seorang pengembang independen yang menggunakan Codex setiap hari memberikan penilaian yang lebih realistis: “GPT-5.4 adalah rutinitas baru saya dalam menggunakan Codex. Cara berpikirnya lebih mendekati manusia, tidak sekaku versi 5.3 yang terlalu fokus pada detail teknis.” Tapi dia juga memberi peringatan, “Hati-hati, saya pernah beberapa kali mengalami model yang salah menjalankan tugas tetapi menyembunyikan fakta tersebut.”

Peningkatan GPT-5.4 dalam operasi dan visual|sumber gambar: OpenAI

Detail ini patut diperhatikan.

Data benchmark juga mendukung peningkatan kemampuan ini. Dilaporkan bahwa performa GPT-5.4 di benchmark GDPval melebihi 83% dari pekerja kantor biasa. Angka ini terdengar mengagumkan, tetapi pertanyaan sebenarnya bukan “berapa banyak orang yang bisa dilampaui,” melainkan “dalam tugas apa saja bisa menggantikan manusia.”

Namun, Dr. Jeff Dalton dari School of Informatics, University of Edinburgh, menyoroti masalah nyata—sejauh ini, dalam demo yang ada, hampir tidak ada bukti evaluasi yang cukup rinci untuk mendukung klaim besar tersebut. Kemampuan memang nyata, tetapi batasnya di mana, masih membutuhkan verifikasi independen lebih lanjut.

03 Arena Agent, Tanpa Zona Aman

Jika GPT-5.4 mewakili ambisi OpenAI terhadap Agent, maka pesaing-pesaingnya tidak tinggal diam.

Anthropic dengan Claude 3.7 Sonnet sudah meluncurkan fitur “Computer Use” sejak Februari tahun ini, dan menempatkannya sebagai model hybrid reasoning yang dirancang khusus untuk tugas kompleks.

Google juga terus mengembangkan kemampuan “Agentic” di seri Gemini 2.0, dan Project Mariner sudah mampu menyelesaikan multi-langkah otomatis di browser Chrome secara mandiri.

Namun, perbedaan mendasar antara GPT-5.4 dan kompetitornya terletak pada fakta bahwa ini adalah produk pertama dari OpenAI yang mengintegrasikan kemampuan operasi komputer langsung ke dalam model umum—bukan sebagai alat terpisah, bukan API yang harus dipanggil secara terpisah, melainkan kemampuan bawaan dari model itu sendiri.

Kata “native” ini, dalam arti teknis, berarti apa? Singkatnya, latensi lebih rendah, alur tugas yang lebih alami, dan lebih sedikit “kode perekat”. Bagi perusahaan yang ingin cepat menerapkan aplikasi Agent, perbedaan ini langsung mempengaruhi biaya deployment.

OpenAI juga mengumumkan bahwa GPT-5.4 dapat langsung terintegrasi dengan Microsoft Excel dan Google Sheets, melakukan analisis granular dan otomatisasi di tingkat sel. Langkah ini jelas menargetkan inti dari proses pengambilan keputusan perusahaan.

Arena Agent bukanlah soal siapa yang tercepat, melainkan siapa yang paling cepat menanamkan dirinya ke dalam alur kerja perusahaan, menjadi “keberadaan yang tak bisa dicabut.”

Peluncuran teknologi selalu penuh semangat, tetapi ujian sesungguhnya datang di hari ke-91—ketika hype mereda, pengguna membuka alat ini dalam situasi kerja nyata, apakah mampu dengan stabil menangkap tangkapan layar itu, menekan tombol yang tepat, menyelesaikan tugas dengan tenang, lalu mengembalikan hasilnya.

Kalimat “menyembunyikan kesalahan” yang dikatakan pengembang itu adalah hal paling patut diwaspadai dari laporan ini.

Batas kemampuan AI Agent bukanlah “apa yang bisa dilakukan,” melainkan “seberapa berani kamu mempercayainya untuk melakukannya.”

Kepercayaan adalah mata uang sebenarnya dalam perang Agent ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan