Claude Sonnet 5 Diluncurkan: Anthropic Mengklaim Banyak Kinerja Mendekati Opus, tetapi Biaya API 60% Lebih Murah

Anthropic resmi meluncurkan Claude Sonnet 5, hasil benchmark resmi menunjukkan berbagai metriknya sudah mendekati flagship Opus 4.8, harga standar API $3 per juta token input / $15 output, sekitar 60% lebih murah dari Opus.
(Prasyarat: Negara Bagian California AS mengumumkan kerja sama dengan Anthropic: lembaga negara bagian dapat menggunakan Claude dengan harga setengah)
(Latar Belakang: Akhir era harga tinggi AI? Lima alasan struktural mengapa token pasti akan turun harga)

60% lebih murah, performa hanya sedikit berbeda, terdengar seperti cerita bisnis yang sempurna, tapi sebaik itu? Baru saja, Anthropic secara resmi merilis Claude Sonnet 5 dan menjadikannya model default untuk pengguna Free dan Pro. Dari segi harga, harga standar API $3 per juta token input, $15 output (periode promo hingga 31 Agustus $2/$10), dibandingkan dengan flagship Opus 4.8 sebesar $5/$25, lebih murah sekitar 60%.

Skor benchmark mendekati flagship

Angka yang dirilis resmi oleh Anthropic sebagai berikut, namun semua skor benchmark adalah data evaluasi internal resmi, belum diverifikasi secara independen oleh pihak ketiga:

Pada SWE-bench Pro (kemampuan kode agentic), Sonnet 5 meraih 63,2%, pendahulu Sonnet 4.6 58,1%, flagship Opus 4.8 69,2%.

Terminal-Bench 2.1 operasi terminal: Sonnet 5 80,4%, Opus 4.8 82,7%.

Humanity’s Last Exam penalaran multidisiplin: Sonnet 5 dengan penggunaan alat mencapai 57,4%, hampir menyamai Opus 4.8 yang 57,9%.

GDPval-AA v2 kemampuan kerja pengetahuan: Sonnet 5 skor 1.618, justru melampaui Opus 4.8 yang 1.615.

Kemampuan operasi komputer juga mengalami kemajuan: Dalam evaluasi OSWorld-Verified, Sonnet 5 meraih 81,2%, pendahulu 78,5%. Skenario inti benchmark ini adalah membuat model benar-benar mengoperasikan desktop, menyelesaikan tugas seperti screenshot, drag-and-drop, transfer data antar aplikasi di lingkungan sistem operasi nyata, mendekati tingkat kesulitan alur kerja otomatis sebenarnya.

Selain itu, Sonnet 5 mendukung context window hingga 1 juta token, output maksimal mencapai 128k token. Artinya, dapat memasukkan teks sekitar 750 novel sekaligus, atau sekumpulan file kontrak perusahaan besar, sehingga model dapat melakukan perbandingan, ringkasan, dan pengambilan keputusan antar file dalam satu percakapan, tanpa perlu pemrosesan bertahap. Spesifikasi ini sangat cocok untuk tugas agentik jangka panjang, karena model tidak perlu "melupakan" konteks sebelumnya di tengah jalan.

Tagihan belum tentu ikut "murah"

Sonnet 5 menggunakan tokenizer versi terbaru. Tokenizer secara sederhana adalah cara memotong teks menjadi token. Cara potong berubah, jumlah token untuk teks yang sama menjadi berbeda, tagihan pun ikut berubah.

Anthropic menjelaskan, input yang sama dengan tokenizer baru dapat menghasilkan jumlah token 1,0 hingga 1,35 kali lipat, tergantung konten. Pihak resmi mengklaim harga telah disesuaikan menjadi "kurang lebih netral biaya", namun menyarankan pengguna dengan lalu lintas tinggi untuk menjalankan benchmark sendiri, tagihan bisa saja tidak turun malah naik.

Dari segi keamanan, laporan Anthropic menunjukkan Sonnet 5 memiliki kecenderungan halusinasi dan ingratiasi yang lebih rendah dibanding Sonnet 4.6, serta kemampuan menolak permintaan berbahaya yang lebih kuat. Namun perbandingan keamanan bersifat relatif: Sonnet 5 masih memiliki tingkat kejadian perilaku tidak pantas yang lebih tinggi daripada Opus 4.8 yang lebih kuat, dan juga lebih tinggi daripada Claude Mythos Preview versi terbatas ketat.

Dalam evaluasi pengembangan eksploit Firefox 147 bekerja sama dengan Mozilla, Sonnet 5 tidak berhasil menghasilkan eksploit yang dapat digunakan (0%), namun tingkat keberhasilan parsial mencapai 13,2%, lebih tinggi dari Sonnet 4.6 yang 8,8%. Kedua angka ini masih jauh dari Opus 4.8 yang 68,8%, namun Anthropic telah mengaktifkan perlindungan keamanan siber secara default.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan