SemiAnalysis evaluasi horizontal menunjukkan: GPT-5.5 kembali ke garis depan setelah setengah tahun, Claude bertanggung jawab untuk perencanaan proyek baru, Codex bertanggung jawab untuk perbaikan yang memerlukan reasoning intensif; Claude menyalin layout tetapi banyak data palsu, data Codex lebih akurat. Benchmark diubah menjadi Expert-SWE, GPT-5.5 tertinggal dari Opus 4.7 pada benchmark tersebut, tokenizer baru Opus 4.7 menambah hingga 35% token. DeepSeek V4 mengikuti tren terbaru tetapi tidak terdepan, penulisan dalam bahasa Mandarin masih lebih baik dari pesaing. Harga harus diukur berdasarkan biaya per tugas, harga satuan GPT-5.5 dua kali lipat dari GPT-5.4, tetapi biaya sebenarnya tergantung pada token yang digunakan. Rasio input-output Codex sekitar 80:1, Claude Code sekitar 100:1.

BlockBeatNews

2026-04-27 05:22:31

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, lembaga analisis semikonduktor dan AI SemiAnalysis merilis evaluasi komprehensif tentang asisten pemrograman, mencakup GPT-5.5, Opus 4.7, dan DeepSeek V4.
Kesimpulan utama: GPT-5.5 adalah model pemrograman pertama OpenAI yang kembali ke garis depan dalam setengah tahun terakhir, dan insinyur SemiAnalysis mulai beralih antara Codex dan Claude Code, sebelumnya hampir semua hanya menggunakan Claude.
GPT-5.5 didasarkan pada pra-pelatihan baru dengan kode nama “Spud”, merupakan kali pertama OpenAI memperbesar skala pra-pelatihan setelah GPT-4.5.

Dalam pengujian, terbentuk pembagian tugas: Claude melakukan perencanaan dan pembangunan awal proyek baru, sementara Codex menangani perbaikan bug yang memerlukan reasoning intensif.
Codex lebih unggul dalam pemahaman struktur data dan reasoning logika, tetapi kurang mahir dalam menebak niat pengguna yang samar.
Pada tugas dashboard yang sama, Claude secara otomatis menyalin tata letak halaman referensi tetapi data banyak yang dibuat-buat, sedangkan Codex melewati tata letak tetapi data jauh lebih akurat.

Artikel mengungkapkan detail operasional dari sebuah benchmark: OpenAI pada bulan Februari tahun ini menulis blog yang menyerukan industri untuk beralih ke SWE-bench Pro sebagai standar baru pengukuran pemrograman, tetapi pengumuman GPT-5.5 malah menggunakan benchmark baru bernama “Expert-SWE”.
Alasan tersembunyi di bagian kecil di bagian bawah pengumuman: GPT-5.5 di atas SWE-bench Pro oleh Opus 4.7, dan jauh di bawah Mythos (77.8%) yang belum dipublikasikan oleh Anthropic.

Untuk Opus 4.7, Anthropic merilis postmortem satu minggu setelah peluncuran, mengakui bahwa Claude Code mengalami tiga bug dari Maret hingga April yang berlangsung selama beberapa minggu, mempengaruhi hampir semua pengguna.
Sebelumnya beberapa insinyur melaporkan penurunan performa 4.6 yang dianggap sebagai persepsi subjektif.
Selain itu, tokenizer baru 4.7 menyebabkan peningkatan penggunaan token hingga 35%, dan Anthropic mengakui hal ini, yang setara dengan kenaikan harga secara tersembunyi.

DeepSeek V4 dinilai sebagai “mengikuti garis depan tetapi tidak terdepan”, menjadi alternatif biaya terendah untuk model tertutup.
Artikel juga menyebutkan “Claude masih unggul dalam tugas penulisan bahasa Mandarin yang sulit” dan mengomentari “Claude memenangkan model China dengan menggunakan bahasa lawan”.

Artikel mengajukan konsep kunci: penilaian harga model harus melihat “biaya per tugas” bukan “biaya per token”.
Harga satu GPT-5.5 adalah dua kali lipat GPT-5.4 (5 dolar untuk input, 30 dolar per juta token untuk output), tetapi menyelesaikan tugas yang sama dengan lebih sedikit token, sehingga biaya aktual mungkin tidak lebih tinggi.
Data awal SemiAnalysis menunjukkan rasio input-output Codex adalah 80:1, lebih rendah dari Claude Code yang 100:1.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
277.12K Popularitas
#
比特币Breaks79K
11.67M Popularitas
#
IsraelStrikesIranBTCPlunges
34.28K Popularitas
#
CryptoMarketsRiseBroadly
86.72K Popularitas
#
WHCADinnerShootingIncident
14.1K Popularitas

Sematkan

peta situs

SemiAnalysis pengujian nyata: GPT-5.5 kembali ke garis depan, tetapi OpenAI diam-diam menyembunyikan satu pencapaian yang dikalahkan oleh Opus

Topik Trending

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Sematkan