Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Opus4.8 resmi dirilis, AI pertama kali mengatakan "Saya tidak yakin"
Penulis|Hualin Wu Wang
Editor|Jingyu
Jika kamu dan aku sama, setiap hari mengandalkan AI untuk menulis artikel, menulis kode, melakukan riset, maka pasti pernah mengalami pengalaman ini—AI dengan penuh percaya diri menyerahkan sebuah hasil, kamu periksa setengah hari dan menemukan ada kesalahan tingkat rendah, sementara AI tidak pernah memberi tahu apa-apa sepanjang waktu.
Masalah "pura-pura semuanya baik-baik saja" ini mungkin salah satu masalah paling menyebalkan dari model besar saat ini.
Pada 28 Mei, Anthropic merilis Claude Opus 4.8. Hanya enam minggu setelah peluncuran versi sebelumnya, Opus 4.7.
Opus4.8 bukan lompatan generasi yang membuat sesak napas, Anthropic sendiri juga mengakui ini hanyalah "peningkatan yang modest but tangible(sederhana tapi nyata)"—tapi mereka melakukan satu hal yang sudah lama dinantikan banyak orang: membuat AI belajar mengakui ketidakpastiannya.
01 Ritme yang lebih cepat, model yang lebih jujur
Dimulai dari Opus 4.5 pada November 2025, ritme iterasi model unggulan Anthropic telah menjadi sekitar setiap dua bulan—4.5 (November tahun lalu), 4.6 (Februari tahun ini), 4.7 (April), 4.8 (akhir Mei). Enam minggu satu versi, ini hampir merupakan kecepatan iterasi paling agresif di industri model besar.
Perbandingan Opus 4.8 dengan model internal dan model pesaing|Gambar sumber: Anthropic
Di benchmark standar, performa Opus 4.8 bisa dirangkum sebagai "kemajuan stabil". Dalam kemampuan pemrograman, SWE-bench Pro meningkat dari 64.3% di 4.7 menjadi 69.2%, SWE-bench Verified dari 87.6% menjadi 88.6%. Penalaran multidisiplin (Humanity's Last Exam) dengan penggunaan alat mencapai 57.9%. Penilaian pekerjaan pengetahuan GDPval-AA unggul dengan Elo 1890 dibandingkan GPT-5.5 yang 1769. Penilaian operasi komputer OSWorld-Verified juga memimpin dengan 83.4%.
Satu-satunya proyek yang dikalahkan GPT-5.5 adalah pengkodean terminal (Terminal-Bench 2.1), GPT-5.5 mendapatkan 78.2%, sementara Opus 4.8 adalah 74.6%.
Tapi sejujurnya, angka-angka ini sudah cukup sulit membuat orang bersemangat. Penilaian SWE-bench Verified semakin mendekati kejenuhan, beberapa model di GPQA Diamond sudah di atas 93%—semakin tinggi skor, setiap kenaikan satu poin terasa semakin kecil secara nyata.
Yang benar-benar membuat saya merasa pembaruan kali ini layak ditulis adalah investasi Anthropic dalam aspek "kejujuran".
02 AI yang bisa bilang "saya tidak yakin"
Anthropic memberikan data yang sangat spesifik: Opus 4.8 dalam tugas pemrograman, probabilitas melewatkan pelaporan kekurangan kode berkurang sekitar empat kali lipat dibanding Opus 4.7.
Apa artinya? Artinya, sebelumnya Opus 4.7 setelah menulis sebuah kode, meskipun ada bug, ia mungkin dengan santai mengatakan "selesai, tidak masalah". Sedangkan Opus 4.8 cenderung secara aktif mengatakan "di sini saya tidak yakin, sebaiknya kamu periksa lagi".
Dalam evaluasi alignment, Opus 4.8 mencapai puncak baru dalam sifat sosial (misalnya menghormati otonomi pengguna, memikirkan kepentingan pengguna), dan tingkat kejadian "penipuan", "kerjasama penyalahgunaan" dan "perilaku tidak alignment" lainnya jauh lebih rendah dibanding Opus 4.7, mendekati model terbaik Anthropic saat ini, Claude Mythos Preview.
CEO Cursor Michael Truell memberi penilaian bahwa Opus 4.8 di CursorBench melampaui semua level usaha dari model Opus sebelumnya, efisiensi panggilan alat lebih tinggi, mencapai tingkat kecerdasan yang sama dengan langkah yang lebih sedikit. Kepala riset aplikasi perusahaan AI hukum Casetext secara langsung mengatakan bahwa Opus 4.8 mencetak rekor baru dalam pengujian standar pengacara hukum, menjadi model pertama yang secara keseluruhan melewati standar 10% all-pass.
CEO Devin Scott Wu menyoroti masalah nyata—Opus 4.8 memperbaiki redundansi anotasi dan masalah panggilan alat yang ada di Opus 4.7, yang sangat penting untuk alur kerja otomatis tanpa pengawasan.
Di era di mana AI semakin banyak digunakan untuk pengambilan keputusan otomatis, model yang secara aktif mengungkap kelemahan sendiri justru yang paling dapat dipercaya.
Tentang inkonsistensi model, Opus4.8 sudah selevel dengan Mythos yang legendaris|Gambar sumber: Anthropic
Namun, dalam sistem keamanan Opus 4.8, Anthropic secara jujur mengungkapkan temuan yang menarik: selama pelatihan, Opus 4.8 mulai menunjukkan kecenderungan "menebak niat penilai".
Secara spesifik, saat melakukan penalaran, model secara aktif memikirkan bagaimana outputnya akan dinilai—meskipun tidak ada yang memberi tahu bahwa ia sedang dinilai. Penelitian awal tentang interpretabilitas menemukan bahwa sekitar 5% dari potongan pelatihan, model menunjukkan penalaran yang terkait dengan penilaian yang tidak diungkapkan secara verbal.
Singkatnya, AI sedang belajar "berpikir seperti ujian"—yang dipedulikan bukanlah memberikan jawaban terbaik, melainkan jawaban yang paling diinginkan oleh "pengoreksi".
Anthropic menekankan bahwa kecenderungan ini saat ini belum menyebabkan perilaku yang lebih buruk—sebenarnya, pernyataan menyesatkan dari Opus 4.8 lebih sedikit dibanding model sebelumnya. Tapi mereka juga mengakui ini adalah tren yang "berpotensi membuat pelatihan menjadi lebih kompleks di masa depan".
Masalah ini sebenarnya tidak hanya milik Anthropic. Semua model yang dilatih melalui RLHF (reinforcement learning berbasis umpan balik manusia), secara teori, bisa mengembangkan strategi "menyenangkan penilai". Perbedaan Anthropic adalah mereka memilih untuk mengungkapkan secara terbuka—di industri yang umumnya menutupi kekurangan dan hanya memuji, ini setidaknya merupakan bentuk kejujuran yang patut dihormati.
03 Fungsi yang benar-benar mengubah pekerjaan
Bersamaan dengan peluncuran Opus 4.8, ada beberapa pembaruan fitur yang paling menarik adalah "Dynamic Workflows" di Claude Code.
Fitur ini memungkinkan Claude dalam satu sesi mengerahkan ratusan sub-agen secara paralel untuk menyelesaikan tugas. Cara kerjanya: Claude membuat rencana, kemudian membagi tugas menjadi sub-tugas, menugaskan ke berbagai sub-agen yang berjalan paralel, bahkan saling meragukan kesimpulan satu sama lain, melakukan iterasi berulang sampai hasilnya konvergen, lalu melakukan verifikasi akhir dan melaporkannya ke pengguna.
Contoh yang diberikan oleh Anthropic adalah, Claude Code bekerja sama dengan Opus 4.8 dapat menyelesaikan migrasi kode dari basis kode yang berisi ratusan ribu baris, dari inisialisasi sampai penggabungan secara otomatis, menggunakan suite pengujian yang ada sebagai standar kualitas. Satu kali jalankan mendukung hingga 1000 sub-agen dan 16 proses paralel.
Pembaruan lain adalah "Effort Control" (Pengendalian Usaha), di claude.ai dan Cowork, pengguna dapat secara manual memilih berapa banyak "pemikiran" yang akan diinvestasikan Claude dalam setiap balasan—dari yang hemat waktu dan tenaga, hingga yang menghabiskan token maksimal. Intinya, memberi pengguna kendali penuh atas "berapa banyak biaya untuk berbuat apa". Opus 4.8 secara default diatur ke "high", konsumsi token saat pengkodean setara dengan default Opus 4.7, tapi performa lebih baik.
Mode cepat (Fast Mode) juga layak disebut: kecepatan meningkat 2,5 kali lipat, dan harganya tiga kali lebih murah dari sebelumnya.
04 Bayang-bayang Mythos
Pada saat peluncuran Opus 4.8, Anthropic kembali menyebut Claude Mythos—model yang saat ini hanya terbatas untuk beberapa organisasi dan memiliki kemampuan lebih tinggi. Anthropic mengatakan Mythos akan "dalam beberapa minggu ke depan" tersedia untuk semua pelanggan.
Ini sebenarnya adalah latar belakang yang lebih besar dari peluncuran Opus 4.8—seperti "pemanasan" sebelum Mythos resmi diluncurkan. Opus 4.8 sudah mendekati performa alignment Mythos Preview, yang mungkin menandakan Anthropic sedang mempersiapkan rilis model yang lebih kuat dari segi keamanan.
Dari segi harga, Opus 4.8 tetap di angka 5 dolar per juta token input dan 25 dolar per juta token output. API-nya bernama claude-opus-4-8, sudah tersedia di Claude API, Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry.
Di tengah tekanan dari GPT-5.5 dari OpenAI dan Gemini 3.1 Pro dari Google, Anthropic memilih jalur yang berbeda: bukan dengan mengandalkan skor tertinggi untuk menciptakan sensasi, melainkan menjadikan "kepribadian model"—jujur, dapat diandalkan, tahu kapan harus maju dan mundur—sebagai poin jual utama.
Apakah ini akan berhasil, tergantung apakah pengguna akan membeli. Tapi setidaknya hari ini, saat saya minta Opus 4.8 meninjau sebuah kode, ia memberi tahu saya sebuah potensi bahaya yang tidak pernah diungkapkan oleh 4.7.
Hanya dari hal ini, pembaruan kali ini sudah tidak sia-sia.