OpenAI 推 GPT-5.5: 12M konteks, indeks AA teratas, Terminal-Bench 82.7% menulis ulang tolok ukur agen

robot
Pembuatan abstrak sedang berlangsung

OpenAI pada 4/23 secara resmi merilis GPT-5.5, menempatkannya sebagai model utama untuk pekerjaan yang berorientasi agen (agentic) dan pemrosesan pengetahuan perusahaan, serta secara bersamaan hadir di ChatGPT dan Codex. Materi promosi resmi menetapkan nada sebagai “model kami yang paling pintar dan paling intuitif untuk digunakan”, sementara AA Intelligence Index meraih puncak dengan 60 poin, unggul atas Claude Opus 4.7 dan Gemini 3.1 Pro Preview masing-masing sebesar 3 poin.

Ikhtisar data kunci

Perbandingan indikator GPT-5.5 (GPT-5.4 atau pesaing setara) AA Intelligence Index 60 Claude Opus 4.7:57; Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0 (workflow berbasis command line) 82.7% GPT-5.4:75.1% Expert-SWE (penilaian kode internal OpenAI) 73.1% GPT-5.4:68.5% Jendela konteks 12.000.000 token meningkat secara signifikan, dapat memproses keseluruhan repositori program perusahaan atau beberapa jam video Harga (per 1 juta token) Masukan 5 dolar, Keluaran 30 dolar GPT-5.4 2 kali harga satuan; namun penggunaan token keluaran turun sekitar 40%, biaya bersih naik sekitar 20%

Posisi: Dirancang untuk “Era Agen”

OpenAI mendeskripsikan GPT-5.5 sebagai model dasar untuk komputasi yang berorientasi agen, mampu memahami tujuan yang kompleks, menggunakan alat, memeriksa sendiri hasil pekerjaan, dan dapat menyelesaikan tugas multi-langkah tanpa manusia perlu ikut campur di setiap langkah. Berdasarkan wawancara TechCrunch, CEO Greg Brockman menggambarkan versi ini sebagai “langkah besar menuju komputasi di masa depan, tetapi hanya satu langkah”, serta menekankan bahwa “dibanding 5.4 ia adalah penalar yang lebih cepat dan lebih tajam, menggunakan token lebih sedikit”.

Kepala ilmuwan Jakub Pachocki menyatakan, “Kami melihat peningkatan yang sangat signifikan dalam jangka pendek”; sementara pemimpin riset Mark Chen menekankan bahwa versi ini menghadirkan “terobosan yang bermakna” dalam alur kerja penelitian sains dan teknologi.

Cakupan pasokan dan segmentasi versi

GPT-5.5: Pengguna Plus, Pro, Business, Enterprise dapat menggunakannya di ChatGPT dan Codex

GPT-5.5 Pro: Versi penalaran tingkat lebih tinggi yang dapat digunakan oleh pengguna Pro, Business, Enterprise di ChatGPT

Integrasi Codex: Sekaligus dapat digunakan pada alat agen program OpenAI, memperkuat pengeditan multi-file, command line, dan loop pengujian

Peningkatan narasi keamanan siber dan pertahanan secara paralel

Anggota tim teknis Mia Glaese saat diwawancarai TechCrunch menyatakan kemampuan keamanan siber GPT-5.5 akan berdampak besar pada cara OpenAI “menerapkan model dengan investasi pertahanan digital”. Narasi ini berhadapan langsung dengan kontroversi baru-baru ini yang beredar seputar model keamanan siber kelas senjata Claude Mythos dari Anthropic—sebelumnya, Altman baru saja mengkritik strategi “pemasaran berbasis ketakutan” Anthropic dalam acara《Core Memory》. Di GPT-5.5, OpenAI lebih menekankan narasi “siap menyerang dan bertahan, dapat dideploy”, yang bertujuan untuk membedakan diri dari posisi Anthropic yang membatasi akses.

Perubahan strategi harga

Harga per 1 juta token GPT-5.5 digandakan menjadi Masukan 5 dolar dan Keluaran 30 dolar, ini adalah generasi pertama seri GPT-5 yang menunjukkan kenaikan harga satuan secara signifikan. Penjelasan OpenAI adalah: efisiensi penalaran model dapat mengurangi penggunaan token keluaran sekitar 40%, sehingga tagihan aktual untuk tugas tipikal sekitar 20% lebih tinggi dibanding GPT-5.4, bukan sekadar 2 kali lipat. Bagi perusahaan, keputusan karenanya bergeser dari “apakah harga satuannya sepadan” menjadi “dalam prompt yang sama, apakah GPT-5.5 dapat menyelesaikan tugas yang lebih kompleks dengan total Token yang lebih sedikit”.

Sinyal bagi industri

GPT-5.5 memperlebar kesenjangan OpenAI dalam Terminal-Bench dan penilaian SWE internal; dua benchmark ini menguji eksekusi agen berbasis command line serta tugas rekayasa perangkat lunak dunia nyata—sebagai medan pertempuran skor yang lebih langsung untuk konfrontasi positif Codex dan Claude Code. Ditambah dengan peluncuran bersamaan jendela konteks 12.000.000 token, OpenAI memberi tekanan pada dua jalur sekaligus: “pemrosesan penuh basis pengetahuan perusahaan” dan “agen tugas panjang”. Bagi Anthropic, Claude Opus 4.7 tertinggal 3 poin dari Claude Opus 4.7 di AA Index dengan 57 poin; bagi pengguna Claude Code, ada pula alasan tambahan untuk mengamati kemajuan generasi berikutnya (Opus 4.8 atau Claude generasi baru).

Artikel ini mengangkat promosi OpenAI untuk GPT-5.5: Konteks 12M, AA Index puncak, Terminal-Bench 82.7% mengganti benchmark agen Muncul pertama kali di 鏈新聞 ABMedia.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan