Mengerti GPT-5.5 dalam satu artikel: Mulai hari ini, OpenAI "tidak menjual" Token

Penulis: Helen

Waktu setempat 23 April, OpenAI secara resmi merilis model flagship generasi baru GPT-5.5, yang secara resmi diposisikan sebagai “lapisan kecerdasan baru yang ditujukan untuk pekerjaan nyata”, dan juga sebagai langkah penting menuju cara kerja komputer yang baru.

Peluncuran kali ini fokus utama pada dua poin:

Pertama adalah terobosan dari segi efisiensi: dengan latensi yang sama, model menjadi lebih besar, tetapi kecepatannya tidak melambat. GPT-5.5 memiliki jendela konteks mencapai 1 juta Token, tetapi ini bukan peningkatan kemampuan sederhana dari GPT-5.4, melainkan peningkatan kecerdasan yang lebih tinggi dengan efisiensi yang sama.

Kedua adalah GPT-5.5 selama proses pelatihan, berpartisipasi dalam pengoptimalan infrastruktur inferensinya sendiri. Singkatnya, AI pertama kali belajar membantu mengatur parameter sendiri.

Dalam pengujian alur kerja baris perintah yang kompleks di Terminal-Bench 2.0, GPT-5.5 mendapatkan skor 82,7%, Claude Opus 4.7 mencapai 69,4%, selisih lebih dari 13 poin persentase; dalam pengujian operasi komputer nyata secara mandiri di OSWorld-Verified, tingkat keberhasilan 78,7%, melampaui baseline manusia; dalam pengujian pekerjaan pengetahuan lintas 44 profesi di GDPval, 84,9% tugas mencapai atau melebihi tingkat ahli industri.

Namun, harga GPT-5.5 juga meningkat secara signifikan.

Harga API adalah 5 dolar AS per juta Token input, 30 dolar AS per juta Token output, dua kali lipat dari GPT-5.4 (2,50 dolar AS untuk input, 15 dolar AS untuk output), tetapi pihak resmi menegaskan bahwa jumlah Token yang dibutuhkan untuk menyelesaikan tugas yang sama secara signifikan berkurang, sehingga biaya total mungkin tidak meningkat secara signifikan. Harga API GPT-5.5 Pro adalah 30 dolar AS per juta Token input, 180 dolar AS per juta Token output. Pengolahan massal dan penetapan harga fleksibel mendapatkan diskon setengah harga, dengan prioritas diproses 2,5 kali lipat dari harga standar.

Di ChatGPT, GPT-5.5 diluncurkan dalam bentuk “GPT-5.5 Thinking”, secara bertahap menggantikan versi sebelumnya.

Satu fitur kecil baru adalah: sebelum mulai berpikir, model akan memberikan gambaran alur pemikiran, dan pengguna dapat menyela kapan saja selama proses eksekusi, serta menyesuaikan arah.

Jika dirangkum dalam satu kalimat tentang makna GPT-5.5: model sebelumnya adalah kumpulan kemampuan, sedangkan GPT-5.5 lebih mendekati sebuah sistem kerja yang mampu merencanakan, memeriksa, dan terus mendorong pekerjaan.

01 84,9% tugas mencapai standar profesional

Perbandingan GPT-5.5 dengan kompetitor dalam pengujian inti Terminal-Bench 2.0, GDPval, OSWorld-Verified

Pertama kita lihat performa model dalam skenario pekerjaan nyata. OpenAI menggunakan sebuah benchmark bernama “GDPval”, yang meminta model menyelesaikan rangkaian tugas profesi lengkap. Pengujian mencakup 44 skenario profesi, termasuk pemodelan keuangan, analisis hukum, laporan data science, perencanaan operasional, dan lain-lain.

Hasilnya menunjukkan: GPT-5.5 dalam 84,9% tugas mencapai atau melebihi tingkat profesional industri. Sebagai perbandingan, GPT-5.4 mencapai 83,0%, Claude Opus 4.7 mencapai 80,3%, Gemini 3.1 Pro hanya 67,3%.

Perbedaan ini tidak hanya terlihat dari skor total. Dalam tugas pemodelan spreadsheet, pengujian internal GPT-5.5 mendapatkan 88,5%; tugas pemodelan tingkat bank investasi juga unggul dari pendahulunya. Umpan balik dari pengguna awal pun cukup konsisten: jawaban GPT-5.5 Pro dari segi kelengkapan, struktur, dan kegunaan jauh lebih baik daripada GPT-5.4 Pro, terutama di bidang bisnis, hukum, pendidikan, dan data science.

Melihat angka saja bisa membuat jenuh, OpenAI kali ini secara terbuka menunjukkan proses internal mereka.

OpenAI menyatakan bahwa lebih dari 85% karyawan mereka menggunakan Codex setiap minggu, di berbagai departemen seperti keuangan, komunikasi, pemasaran, produk, dan data science. Tim komunikasi menggunakan Codex untuk menganalisis data undangan pidato selama enam bulan, membangun proses otomatisasi pengklasifikasian; tim keuangan memeriksa 24.771 formulir pajak K-1, total 71.637 halaman, selesai dua minggu lebih awal dari jadwal; tim pengembangan pasar menggunakan otomatisasi pembuatan laporan mingguan, menghemat 5 sampai 10 jam per orang setiap minggu.

Ini bukan demo laboratorium, melainkan sudah menjadi bagian dari rutinitas kerja.

02 Model pemrograman mandiri terkuat

OpenAI menyatakan, GPT-5.5 saat ini adalah model pemrograman mandiri terkuat mereka.

Di Terminal-Bench 2.0 (mengujikan alur kerja baris perintah kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi alat), GPT-5.5 mendapatkan skor 82,7%, dibandingkan GPT-5.4 yang 75,1%, peningkatan hampir 8 poin persentase, sekaligus mengkonsumsi Token lebih sedikit. Di SWE-Bench Pro (mengukur kemampuan menyelesaikan masalah GitHub secara langsung), GPT-5.5 mendapatkan skor 58,6%. Di pengujian internal Expert-SWE (tugas pemrograman jangka panjang, waktu penyelesaian median sekitar 20 jam), GPT-5.5 juga melampaui GPT-5.4.

Grafik sebaran Terminal-Bench 2.0 dan Expert-SWE

Berkat GPT-5.5 yang didukung Codex, model ini sudah mampu memulai dari satu kata petunjuk, dan secara mandiri menyelesaikan seluruh proses pengembangan dari pembuatan kode, pengujian fungsi, hingga debugging visual.

Contoh demonstrasi resmi dari OpenAI menunjukkan aplikasi misi luar angkasa berbasis data orbit nyata NASA, mendukung interaksi 3D, simulasi orbit dengan presisi fisika nyata; sensor gempa yang terhubung ke sumber data real-time dan melakukan visualisasi, menunjukkan model sudah mampu memanggil API eksternal, memproses data dinamis, dan melakukan rendering secara real-time.

Dalam hal umpan balik pengguna, CEO dan pendiri Every Dan Shipper menceritakan pengalaman: dia pernah menghadapi bug setelah peluncuran, dan harus memperbaikinya sendiri selama beberapa hari, hingga akhirnya meminta insinyur terbaik perusahaan untuk memperbaiki sebagian sistem. Setelah GPT-5.5 dirilis, dia melakukan eksperimen—mengembalikan model ke kondisi bug belum diperbaiki, dan melihat apakah model bisa menyusun solusi seperti insinyur. GPT-5.4 gagal, GPT-5.5 mampu. Dia menilai: “Ini adalah model pemrograman pertama yang benar-benar memiliki kejelasan konsep.”

Seorang insinyur Nvidia bahkan berkomentar secara langsung: “Kalau kehilangan akses ke GPT-5.5, rasanya seperti kehilangan anggota tubuh.”

Pendiri dan CEO Cursor Michael Truell menambahkan: GPT-5.5 lebih cerdas dan tangguh dari GPT-5.4, mampu bertahan lebih lama dalam tugas panjang dan kompleks—yang sangat dibutuhkan dalam pekerjaan rekayasa.

03 Pekerjaan pengetahuan: AI pertama yang benar-benar bisa “menggunakan” komputer

Dalam pengujian OSWorld-Verified (mengukur kemampuan model mengoperasikan komputer nyata secara mandiri), GPT-5.5 berhasil 78,7%, lebih tinggi dari GPT-5.4 yang 75,0%, dan juga lebih baik dari Claude Opus 4.7 yang 78,0%.

Ini bukan sekadar analisis screenshot, melainkan pengendalian layar nyata: melihat antarmuka, klik, input, beralih antar alat, hingga tugas selesai. GPT-5.5 membuat orang pertama kali merasakan bahwa AI benar-benar bisa bekerja sama dengan pengguna dalam menggunakan satu komputer yang sama.

Video demonstrasi pemodelan keuangan

Dalam pengujian alur kerja layanan pelanggan telekomunikasi Tau2-bench, GPT-5.5 tanpa tuning prompt mencapai akurasi 98,0%, sedangkan GPT-5.4 hanya 92,8%.

Ini menunjukkan bahwa model memiliki pemahaman yang cukup mendalam terhadap maksud tugas, sehingga tidak perlu prompt yang dirancang secara khusus untuk menangani alur dialog multi langkah yang kompleks.

Dalam kemampuan pencarian alat, GPT-5.5 mendapatkan skor 84,4% di BrowseComp, dan GPT-5.5 Pro mencapai 90,1%, menunjukkan performa yang cukup kuat dalam tugas penelitian yang membutuhkan penggabungan dan inferensi dari berbagai sumber informasi.

04 Penelitian ilmiah: Membantu penemuan pembuktian matematika baru

Dalam peluncuran ini, performa GPT-5.5 di bidang penelitian ilmiah mungkin adalah bagian yang paling mengejutkan.

Dulu saat membahas AI dalam penelitian, biasanya sebagai “alat bantu”, untuk mencari literatur, menulis kode, mengatur data. Tapi kali ini, perannya jelas maju ke bagian yang lebih inti: inferensi kompleks, bahkan penemuan itu sendiri.

Di GeneBench (pengujian analisis data multi tahap di genetika dan biologi kuantitatif), GPT-5.5 mendapatkan skor 25,0%, sedangkan GPT-5.4 19,0%. Tugas ini biasanya memakan waktu berhari-hari bagi para ilmuwan, dan model harus mampu melakukan inferensi terhadap data yang berpotensi salah, mengatasi faktor pengacau tersembunyi, serta menerapkan metode statistik modern secara benar.

Grafik kurva menunjukkan bahwa seiring meningkatnya jumlah Token output, peningkatan skor GPT-5.5 selalu lebih tinggi daripada GPT-5.4, dan mulai terlihat jelas di sekitar 15.000 Token—yang berarti untuk tugas panjang yang membutuhkan inferensi mendalam, keunggulan GPT-5.5 akan semakin nyata seiring kompleksitas tugas meningkat.

Di BixBench (benchmark analisis data biologi dan bioinformatika dunia nyata), GPT-5.5 meraih skor 80,5%, unggul dari GPT-5.4 yang 74,0%, dan menempati posisi terdepan di antara model yang sudah dirilis.

Yang benar-benar menarik perhatian adalah sebuah kasus konkret: versi internal GPT-5.5 yang dilengkapi kerangka alat kustom, membantu menemukan sebuah pembuktian matematika tentang angka Ramse, dan diverifikasi dalam alat pembuktian formal Lean. Angka Ramse adalah objek utama dalam matematika kombinatorial, dan pencapaian di bidang ini sangat jarang dan sangat sulit. Ini bukan sekadar AI yang menyediakan kode atau penjelasan, melainkan benar-benar menyumbangkan sebuah argumen matematis.

Dalam aplikasi nyata, Profesor imunologi Jackson dari Jackson Laboratory, Derya Unutmaz, menggunakan GPT-5.5 Pro untuk menganalisis dataset ekspresi gen berisi 62 sampel dan hampir 28.000 gen, menghasilkan laporan penelitian lengkap, mengekstrak temuan utama dan pertanyaan riset—yang biasanya memakan waktu berbulan-bulan.

Asisten profesor dari Universitas Adam Mickiewicz di Poznan, Bartosz Naskręcki, hanya dengan satu prompt, menggunakan GPT-5.5 dari Codex, dalam 11 menit membangun sebuah aplikasi geometri aljabar yang memvisualisasikan irisan dua permukaan kuadratik dan mengubah kurva yang dihasilkan menjadi model Weierstrass. Koefisien persamaan yang muncul dapat langsung digunakan untuk penelitian matematika lanjutan, seluruh proses dari prompt hingga alat penelitian yang dapat dijalankan dilakukan secara mandiri oleh model.

Cuplikan aplikasi geometri aljabar yang dibuat Naskręcki—visualisasi irisan permukaan kuadratik dan antarmuka kalkulasi persamaan Weierstrass secara real-time

Pendapat Brandon White, salah satu pendiri Axiom Bio, lebih langsung: “Jika OpenAI mempertahankan momentum ini, fondasi penemuan obat akan berubah sebelum akhir tahun.”

05 Efisiensi inferensi: AI pertama yang membantu mengoptimalkan infrastruktur sendiri

Peluncuran ini menyertakan detail yang mudah terabaikan, tetapi mungkin adalah kemajuan paling berharga dari segi teknologi.

GPT-5.5 adalah model yang lebih besar dan lebih kuat, tetapi latensi per Token saat layanan berjalan tetap setara dengan GPT-5.4. Untuk mempertahankan kemampuan yang lebih tinggi dengan latensi yang sama, OpenAI merancang ulang sistem inferensi secara keseluruhan—dan Codex serta GPT-5.5 sendiri secara langsung terlibat dalam proses pengoptimalan ini.

Dari grafik indeks kecerdasan Artificial Analysis, dapat dilihat secara visual: sumbu horizontal adalah total Token output (skala logaritmik), sumbu vertikal adalah skor kecerdasan komprehensif. Kurva GPT-5.5 tidak hanya unggul dari GPT-5.4, Claude Opus 4.7, dan Gemini 3.1 Pro Preview dari segi skor, tetapi yang lebih penting, sudah mencapai tingkat skor yang biasanya membutuhkan konsumsi Token lebih banyak—artinya kemampuan lebih kuat dengan biaya lebih rendah, sebuah manifestasi langsung dari “peningkatan efisiensi”.

Grafik garis indeks kecerdasan Artificial Analysis

Secara spesifik, tantangan tim adalah penyeimbangan beban: sebelumnya membagi permintaan menjadi blok tetap untuk menyeimbangkan kerja GPU, tetapi pembagian statis tidak optimal untuk semua pola trafik. Codex menganalisis data trafik produksi selama beberapa minggu, dan menulis algoritma heuristik kustom yang meningkatkan kecepatan generasi Token lebih dari 20%.

GPT-5.5 bekerja sama dengan sistem NVIDIA GB200 dan GB300 NVL72, dalam desain, pelatihan, dan deployment secara kolaboratif. Dengan kata lain, generasi model ini turut mengoptimalkan arsitektur inferensi layanan mereka sendiri—ini bukan sekadar kiasan, tetapi secara harfiah “AI memperbaiki sistem jalannya sendiri”.

06 Keamanan siber: kemampuan meningkat, pengendalian juga semakin ketat

GPT-5.5 menunjukkan peningkatan yang jelas dalam kemampuan keamanan siber. Dalam pengujian CyberGym, GPT-5.5 mendapatkan skor 81,8%, GPT-5.4 79,0%, dan Claude Opus 4.7 73,1%. Dalam tantangan “Capture The Flag” (CTF) internal, GPT-5.5 meraih skor 88,1%, GPT-5.4 83,7%.

Grafik batang CyberGym dan grafik sebaran tantangan CTF

OpenAI menilai bahwa kemampuan keamanan siber dan kemampuan di bidang biokimia/kimia dari GPT-5.5 berada dalam kategori “tinggi” dalam kerangka kesiapsiagaan darurat, belum mencapai kategori “kritis”, tetapi menunjukkan peningkatan yang jelas dibanding pendahulunya. Pada saat yang sama, mereka juga mengakui bahwa classifier risiko yang lebih ketat yang baru diterapkan “mungkin awalnya akan terasa kurang nyaman bagi beberapa pengguna”, dan akan terus disesuaikan.

Untuk menyeimbangkan kebutuhan pertahanan dan pembatasan akses, OpenAI meluncurkan program “Akses Tepercaya Keamanan Siber”: peneliti keamanan dan pelindung infrastruktur penting yang memenuhi syarat dapat mengajukan permohonan akses yang lebih longgar, agar dapat menggunakan kemampuan keamanan siber tingkat tinggi dengan lebih mudah.

Di balik semua ini, logikanya adalah kemampuan di bidang keamanan siber, bahkan biokimia, menyebar secara teknologi hampir tidak dapat dihindari. Daripada berusaha membatasi penggunaan secara total, lebih baik mengarahkan—biarkan mereka yang benar-benar melakukan pertahanan menggunakan alat paling canggih terlebih dahulu. Singkatnya, ini bukan soal “harus dibuka atau tidak”, tetapi “siapa yang pertama mendapatkannya”.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan