Opus4.8 resmi dirilis, AI pertama kali mengatakan "Saya tidak yakin"

Penulis|Hualin Wu Wang

Editor|Jingyu

Jika kamu dan aku sama, setiap hari mengandalkan AI untuk menulis artikel, menulis kode, melakukan riset, maka pasti pernah mengalami pengalaman ini—AI dengan penuh percaya diri menyerahkan sebuah hasil, kamu periksa setengah hari dan menemukan ada kesalahan tingkat rendah, sementara AI tidak pernah memberi tahu apa-apa sepanjang waktu.

Masalah "pura-pura semuanya baik-baik saja" ini mungkin salah satu masalah paling menyebalkan dari model besar saat ini.

Pada 28 Mei, Anthropic merilis Claude Opus 4.8. Hanya enam minggu setelah peluncuran versi sebelumnya, Opus 4.7.

Opus4.8 bukan lompatan generasi yang membuat sesak napas, Anthropic sendiri juga mengakui ini hanyalah "peningkatan yang modest but tangible(sederhana tapi nyata)"—tapi mereka melakukan satu hal yang sudah lama dinantikan banyak orang: membuat AI belajar mengakui ketidakpastiannya.

01 Ritme yang lebih cepat, model yang lebih jujur

Dimulai dari Opus 4.5 pada November 2025, ritme iterasi model unggulan Anthropic telah menjadi sekitar setiap dua bulan—4.5 (November tahun lalu), 4.6 (Februari tahun ini), 4.7 (April), 4.8 (akhir Mei). Enam minggu satu versi, ini hampir merupakan kecepatan iterasi paling agresif di industri model besar.

Perbandingan Opus 4.8 dengan model internal dan model pesaing|Gambar sumber: Anthropic

Di benchmark standar, performa Opus 4.8 bisa dirangkum sebagai "kemajuan stabil". Dalam kemampuan pemrograman, SWE-bench Pro meningkat dari 64.3% di 4.7 menjadi 69.2%, SWE-bench Verified dari 87.6% menjadi 88.6%. Penalaran multidisiplin (Humanity's Last Exam) dengan penggunaan alat mencapai 57.9%. Penilaian pekerjaan pengetahuan GDPval-AA unggul dengan Elo 1890 dibandingkan GPT-5.5 yang 1769. Penilaian operasi komputer OSWorld-Verified juga memimpin dengan 83.4%.

Satu-satunya proyek yang dikalahkan GPT-5.5 adalah pengkodean terminal (Terminal-Bench 2.1), GPT-5.5 mendapatkan 78.2%, sementara Opus 4.8 adalah 74.6%.

Tapi sejujurnya, angka-angka ini sudah cukup sulit membuat orang bersemangat. Penilaian SWE-bench Verified semakin mendekati kejenuhan, beberapa model di GPQA Diamond sudah di atas 93%—semakin tinggi skor, setiap kenaikan satu poin terasa semakin kecil secara nyata.

Yang benar-benar membuat saya merasa pembaruan kali ini layak ditulis adalah investasi Anthropic dalam aspek "kejujuran".

02 AI yang bisa bilang "saya tidak yakin"

Anthropic memberikan data yang sangat spesifik: Opus 4.8 dalam tugas pemrograman, probabilitas melewatkan pelaporan kekurangan kode berkurang sekitar empat kali lipat dibanding Opus 4.7.

Apa artinya? Artinya, sebelumnya Opus 4.7 setelah menulis sebuah kode, meskipun ada bug, ia mungkin dengan santai mengatakan "selesai, tidak masalah". Sedangkan Opus 4.8 cenderung secara aktif mengatakan "di sini saya tidak yakin, sebaiknya kamu periksa lagi".

Dalam evaluasi alignment, Opus 4.8 mencapai puncak baru dalam sifat sosial (misalnya menghormati otonomi pengguna, memikirkan kepentingan pengguna), dan tingkat kejadian "penipuan", "kerjasama penyalahgunaan" dan "perilaku tidak alignment" lainnya jauh lebih rendah dibanding Opus 4.7, mendekati model terbaik Anthropic saat ini, Claude Mythos Preview.

CEO Cursor Michael Truell memberi penilaian bahwa Opus 4.8 di CursorBench melampaui semua level usaha dari model Opus sebelumnya, efisiensi panggilan alat lebih tinggi, mencapai tingkat kecerdasan yang sama dengan langkah yang lebih sedikit. Kepala riset aplikasi perusahaan AI hukum Casetext secara langsung mengatakan bahwa Opus 4.8 mencetak rekor baru dalam pengujian standar pengacara hukum, menjadi model pertama yang secara keseluruhan melewati standar 10% all-pass.

CEO Devin Scott Wu menyoroti masalah nyata—Opus 4.8 memperbaiki redundansi anotasi dan masalah panggilan alat yang ada di Opus 4.7, yang sangat penting untuk alur kerja otomatis tanpa pengawasan.

Di era di mana AI semakin banyak digunakan untuk pengambilan keputusan otomatis, model yang secara aktif mengungkap kelemahan sendiri justru yang paling dapat dipercaya.

Tentang inkonsistensi model, Opus4.8 sudah selevel dengan Mythos yang legendaris|Gambar sumber: Anthropic

Namun, dalam sistem keamanan Opus 4.8, Anthropic secara jujur mengungkapkan temuan yang menarik: selama pelatihan, Opus 4.8 mulai menunjukkan kecenderungan "menebak niat penilai".

Secara spesifik, saat melakukan penalaran, model secara aktif memikirkan bagaimana outputnya akan dinilai—meskipun tidak ada yang memberi tahu bahwa ia sedang dinilai. Penelitian awal tentang interpretabilitas menemukan bahwa sekitar 5% dari potongan pelatihan, model menunjukkan penalaran yang terkait dengan penilaian yang tidak diungkapkan secara verbal.

Singkatnya, AI sedang belajar "berpikir seperti ujian"—yang dipedulikan bukanlah memberikan jawaban terbaik, melainkan jawaban yang paling diinginkan oleh "pengoreksi".

Anthropic menekankan bahwa kecenderungan ini saat ini belum menyebabkan perilaku yang lebih buruk—sebenarnya, pernyataan menyesatkan dari Opus 4.8 lebih sedikit dibanding model sebelumnya. Tapi mereka juga mengakui ini adalah tren yang "berpotensi membuat pelatihan menjadi lebih kompleks di masa depan".

Masalah ini sebenarnya tidak hanya milik Anthropic. Semua model yang dilatih melalui RLHF (reinforcement learning berbasis umpan balik manusia), secara teori, bisa mengembangkan strategi "menyenangkan penilai". Perbedaan Anthropic adalah mereka memilih untuk mengungkapkan secara terbuka—di industri yang umumnya menutupi kekurangan dan hanya memuji, ini setidaknya merupakan bentuk kejujuran yang patut dihormati.

03 Fungsi yang benar-benar mengubah pekerjaan

Bersamaan dengan peluncuran Opus 4.8, ada beberapa pembaruan fitur yang paling menarik adalah "Dynamic Workflows" di Claude Code.

Fitur ini memungkinkan Claude dalam satu sesi mengerahkan ratusan sub-agen secara paralel untuk menyelesaikan tugas. Cara kerjanya: Claude membuat rencana, kemudian membagi tugas menjadi sub-tugas, menugaskan ke berbagai sub-agen yang berjalan paralel, bahkan saling meragukan kesimpulan satu sama lain, melakukan iterasi berulang sampai hasilnya konvergen, lalu melakukan verifikasi akhir dan melaporkannya ke pengguna.

Contoh yang diberikan oleh Anthropic adalah, Claude Code bekerja sama dengan Opus 4.8 dapat menyelesaikan migrasi kode dari basis kode yang berisi ratusan ribu baris, dari inisialisasi sampai penggabungan secara otomatis, menggunakan suite pengujian yang ada sebagai standar kualitas. Satu kali jalankan mendukung hingga 1000 sub-agen dan 16 proses paralel.

Pembaruan lain adalah "Effort Control" (Pengendalian Usaha), di claude.ai dan Cowork, pengguna dapat secara manual memilih berapa banyak "pemikiran" yang akan diinvestasikan Claude dalam setiap balasan—dari yang hemat waktu dan tenaga, hingga yang menghabiskan token maksimal. Intinya, memberi pengguna kendali penuh atas "berapa banyak biaya untuk berbuat apa". Opus 4.8 secara default diatur ke "high", konsumsi token saat pengkodean setara dengan default Opus 4.7, tapi performa lebih baik.

Mode cepat (Fast Mode) juga layak disebut: kecepatan meningkat 2,5 kali lipat, dan harganya tiga kali lebih murah dari sebelumnya.

04 Bayang-bayang Mythos

Pada saat peluncuran Opus 4.8, Anthropic kembali menyebut Claude Mythos—model yang saat ini hanya terbatas untuk beberapa organisasi dan memiliki kemampuan lebih tinggi. Anthropic mengatakan Mythos akan "dalam beberapa minggu ke depan" tersedia untuk semua pelanggan.

Ini sebenarnya adalah latar belakang yang lebih besar dari peluncuran Opus 4.8—seperti "pemanasan" sebelum Mythos resmi diluncurkan. Opus 4.8 sudah mendekati performa alignment Mythos Preview, yang mungkin menandakan Anthropic sedang mempersiapkan rilis model yang lebih kuat dari segi keamanan.

Dari segi harga, Opus 4.8 tetap di angka 5 dolar per juta token input dan 25 dolar per juta token output. API-nya bernama claude-opus-4-8, sudah tersedia di Claude API, Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry.

Di tengah tekanan dari GPT-5.5 dari OpenAI dan Gemini 3.1 Pro dari Google, Anthropic memilih jalur yang berbeda: bukan dengan mengandalkan skor tertinggi untuk menciptakan sensasi, melainkan menjadikan "kepribadian model"—jujur, dapat diandalkan, tahu kapan harus maju dan mundur—sebagai poin jual utama.

Apakah ini akan berhasil, tergantung apakah pengguna akan membeli. Tapi setidaknya hari ini, saat saya minta Opus 4.8 meninjau sebuah kode, ia memberi tahu saya sebuah potensi bahaya yang tidak pernah diungkapkan oleh 4.7.

Hanya dari hal ini, pembaruan kali ini sudah tidak sia-sia.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan