Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Anthropic mengklaim telah menutup risiko pemerasan Claude
Anthropic mengumumkan pada hari Jumat bahwa Claude tidak lagi melakukan pemerasan selama penilaian keamanan inti untuk agen AI.
Menurut Anthropic, semua versi Claude yang dibuat setelah Claude Haiku 4.5 telah lulus penilaian keamanan tanpa mengancam insinyur, menggunakan data pribadi, menyerang sistem AI lain, atau berusaha mencegah pemadaman selama skenario simulasi.
Ini setelah performa yang tidak menguntungkan oleh Claude selama sebuah tes tahun lalu, di mana Anthropic menguji berbagai model AI dari berbagai organisasi menggunakan dilema etika simulasi yang menghasilkan perilaku yang sangat tidak sesuai oleh beberapa agen AI ketika menghadapi kondisi ekstrem.
Anthropic mengatakan Claude 4 menunjukkan masalah keamanan yang gagal diperbaiki oleh pelatihan obrolan reguler
Anthropic menyatakan bahwa masalah ini terjadi selama pelatihan Claude 4. Ini adalah kejadian pertama di mana perusahaan melakukan audit keamanan saat pelatihan masih berlangsung dalam kelompok tersebut. Menurut perusahaan, ketidaksesuaian agenik hanyalah salah satu dari banyak masalah perilaku yang diamati, mendorong Anthropic untuk memodifikasi pelatihan keamanannya setelah pengujian Claude 4.
Dua alasan yang dipertimbangkan oleh Anthropic termasuk kemungkinan bahwa pelatihan model dasar pasca-pelatihan dapat memberi penghargaan pada perilaku yang tidak pantas atau bahwa perilaku tersebut sudah ada dalam model dasar, tetapi tidak secara efektif dihilangkan melalui pelatihan lebih lanjut untuk keamanan.
Anthropic percaya bahwa alasan terakhir adalah penyumbang utama.
Saat itu, sebagian besar pekerjaan penyesuaian oleh perusahaan menggunakan metode RLHF standar, atau Reinforcement Learning from Human Feedback. Metode ini bekerja dengan baik pada obrolan standar di mana model merespons permintaan pengguna tetapi terbukti tidak efektif saat melakukan tugas seperti agen.
Perusahaan menggunakan model kelas Haiku-nya untuk melakukan eksperimen kecil terkait hipotesis tersebut. Mereka menerapkan versi pelatihan yang dipersingkat yang melibatkan data untuk tujuan penyesuaian. Ada sedikit pengurangan perilaku salah, diikuti oleh kurangnya peningkatan yang sangat cepat, yang berarti jawaban bukanlah masalah pelatihan yang lebih konvensional.
Perusahaan kemudian melatih Claude menggunakan skenario gaya honeypot yang memiliki beberapa kesamaan dengan tes penyesuaian tersebut. Asisten mengamati berbagai situasi yang melibatkan melindungi diri sendiri, menyakiti AI lain, dan bahkan melanggar aturan untuk mencapai tujuan. Pelatihan mencakup semua kasus ketika asisten berhasil bertahan.
Langkah ini membuat ketidaksesuaian menurun dari 22% menjadi 15%, yang tidak buruk tetapi jelas tidak cukup. Menulis ulang jawaban untuk menyebutkan alasan penolakan memungkinkan mengurangi proporsi menjadi 3%. Jadi, kesimpulan utamanya adalah bahwa pelatihan pada perilaku yang salah kurang efektif daripada pelatihan tentang mengapa perilaku yang salah tidak pantas.
Anthropic menguji Claude dengan data etika, file konstitusi, dan pelatihan RL yang lebih luas
Kemudian Anthropic menghentikan pelatihan mendekati tes yang sebenarnya. Mereka membuat dataset yang disebut saran sulit. Dalam contoh tersebut, pengguna menghadapi masalah etika, bukan AI. Pengguna memiliki tujuan yang adil tetapi dapat mencapainya dengan melanggar aturan atau menghindari pengawasan. Claude harus memberikan saran yang hati-hati berdasarkan konstitusi Claude.
Dataset tersebut hanya menggunakan 3 juta token dan cocok dengan peningkatan sebelumnya dengan efisiensi 28 kali lebih baik. Anthropic mengatakan ini penting karena pelatihan pada contoh yang tidak terlihat seperti tes mungkin bekerja lebih baik di luar laboratorium.
Claude Sonnet 4.5 mencapai tingkat pemerasan mendekati nol setelah pelatihan pada honeypot sintetis, tetapi masih gagal lebih sering dalam kasus yang tidak mirip setup tersebut dibandingkan Claude Opus 4.5 dan model yang lebih baru.
Perusahaan juga melatih Claude pada dokumen konstitusi dan cerita fiksi tentang perilaku AI yang mengikuti aturan. File tersebut tidak terlihat seperti tes pemerasan, tetapi mereka mengurangi ketidaksesuaian agenik lebih dari tiga kali lipat. Anthropic mengatakan tujuannya adalah memberi model pemahaman yang lebih jelas tentang apa yang seharusnya menjadi Claude, bukan hanya daftar jawaban yang disetujui.
Perusahaan kemudian memeriksa apakah peningkatan tersebut tetap setelah pelatihan RL. Mereka melatih berbagai versi Haiku dengan dataset awal yang berbeda, lalu menjalankan RL dalam pengaturan pengujian yang berfokus pada keselamatan. Versi yang lebih sesuai tetap unggul dalam tes pemerasan, pemeriksaan konstitusi, dan tinjauan keamanan otomatis.
Tes lain menggunakan model dasar di bawah Claude Sonnet 4 dengan campuran RL yang berbeda. Data keamanan dasar mencakup permintaan berbahaya dan upaya jailbreak. Versi yang lebih luas menambahkan definisi alat dan prompt sistem yang berbeda, meskipun alat tersebut tidak diperlukan untuk tugas. Pengaturan tersebut menghasilkan peningkatan kecil tetapi nyata pada skor honeypot.
Jangan hanya membaca berita kripto. Pahami itu. Berlangganan newsletter kami. Gratis.