SemiAnalysis pengujian nyata: GPT-5.5 kembali ke garis depan, tetapi OpenAI diam-diam menyembunyikan satu pencapaian yang dikalahkan oleh Opus

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, lembaga analisis semikonduktor dan AI SemiAnalysis merilis evaluasi komprehensif tentang asisten pemrograman, mencakup GPT-5.5, Opus 4.7, dan DeepSeek V4.
Kesimpulan utama: GPT-5.5 adalah model pemrograman pertama OpenAI yang kembali ke garis depan dalam setengah tahun terakhir, dan insinyur SemiAnalysis mulai beralih antara Codex dan Claude Code, sebelumnya hampir semua hanya menggunakan Claude.
GPT-5.5 didasarkan pada pra-pelatihan baru dengan kode nama “Spud”, merupakan kali pertama OpenAI memperbesar skala pra-pelatihan setelah GPT-4.5.

Dalam pengujian, terbentuk pembagian tugas: Claude melakukan perencanaan dan pembangunan awal proyek baru, sementara Codex menangani perbaikan bug yang memerlukan reasoning intensif.
Codex lebih unggul dalam pemahaman struktur data dan reasoning logika, tetapi kurang mahir dalam menebak niat pengguna yang samar.
Pada tugas dashboard yang sama, Claude secara otomatis menyalin tata letak halaman referensi tetapi data banyak yang dibuat-buat, sedangkan Codex melewati tata letak tetapi data jauh lebih akurat.

Artikel mengungkapkan detail operasional dari sebuah benchmark: OpenAI pada bulan Februari tahun ini menulis blog yang menyerukan industri untuk beralih ke SWE-bench Pro sebagai standar baru pengukuran pemrograman, tetapi pengumuman GPT-5.5 malah menggunakan benchmark baru bernama “Expert-SWE”.
Alasan tersembunyi di bagian kecil di bagian bawah pengumuman: GPT-5.5 di atas SWE-bench Pro oleh Opus 4.7, dan jauh di bawah Mythos (77.8%) yang belum dipublikasikan oleh Anthropic.

Untuk Opus 4.7, Anthropic merilis postmortem satu minggu setelah peluncuran, mengakui bahwa Claude Code mengalami tiga bug dari Maret hingga April yang berlangsung selama beberapa minggu, mempengaruhi hampir semua pengguna.
Sebelumnya beberapa insinyur melaporkan penurunan performa 4.6 yang dianggap sebagai persepsi subjektif.
Selain itu, tokenizer baru 4.7 menyebabkan peningkatan penggunaan token hingga 35%, dan Anthropic mengakui hal ini, yang setara dengan kenaikan harga secara tersembunyi.

DeepSeek V4 dinilai sebagai “mengikuti garis depan tetapi tidak terdepan”, menjadi alternatif biaya terendah untuk model tertutup.
Artikel juga menyebutkan “Claude masih unggul dalam tugas penulisan bahasa Mandarin yang sulit” dan mengomentari “Claude memenangkan model China dengan menggunakan bahasa lawan”.

Artikel mengajukan konsep kunci: penilaian harga model harus melihat “biaya per tugas” bukan “biaya per token”.
Harga satu GPT-5.5 adalah dua kali lipat GPT-5.4 (5 dolar untuk input, 30 dolar per juta token untuk output), tetapi menyelesaikan tugas yang sama dengan lebih sedikit token, sehingga biaya aktual mungkin tidak lebih tinggi.
Data awal SemiAnalysis menunjukkan rasio input-output Codex adalah 80:1, lebih rendah dari Claude Code yang 100:1.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan