Anthropic menyerukan perlindungan agen AI berdasarkan prinsip Zero Trust - ForkLog: cryptocurrency, AI, singularitas, masa depan

AI-agents ИИ агенты 3# Anthropic menyerukan perlindungan agen AI berdasarkan prinsip Zero Trust

Tim Anthropic menerbitkan di blog Claude panduan Zero Trust untuk agen AI tentang penerapan aman agen AI otonom di lingkungan perusahaan. Dalam dokumen tersebut diidentifikasi risiko utama dari sistem agen dan pendekatan terhadap keamanan siber bisnis.

AI mempercepat siklus serangan

Menurut penilaian Anthropic, model-model canggih telah memperpendek jarak antara penemuan kerentanan dan eksploitasi dari bulan ke jam. Perusahaan menyarankan untuk mempertimbangkan tidak hanya serangan yang dipercepat AI terhadap infrastruktur, tetapi juga risiko dari agen itu sendiri, yang dapat menafsirkan tujuan, memilih alat, dan melakukan tindakan multi-langkah tanpa keterlibatan manusia secara terus-menerus.

Dasar panduan ini adalah prinsip Zero Trust: tidak mempercayai secara default, memverifikasi setiap tindakan, dan menganggap kemungkinan kompromi. Anthropic merujuk pada rekomendasi NIST SP 800-207, yang diterbitkan pada tahun 2020, dan serangkaian Panduan Implementasi Zero Trust yang mulai dirilis oleh NSA pada tahun 2026. Panduan ini diposisikan sebagai kerangka kerja praktis untuk tim keamanan, arsitek, dan insinyur, bukan sebagai skema kepatuhan universal.

Di antara ancaman utama yang tercantum dalam dokumen adalah intervensi langsung dan tidak langsung melalui prompt, infeksi alat, penyalahgunaan identitas dan hak istimewa, pencemaran memori dan konteks, serta serangan terhadap rantai pasokan.

Pencemaran prompt langsung digambarkan sebagai penyisipan instruksi berbahaya melalui input pengguna, sedangkan tidak langsung melalui halaman web, email, dokumen, dan sumber eksternal lain yang diproses agen selama bekerja.

Dalam dokumen tersebut dibahas tentang substitusi alat yang sah dengan yang berbahaya dan rantai panggilan yang berbahaya, di mana alat yang aman secara individual dapat menjadi risiko saat dikombinasikan. Anthropic menggunakan konsep “radius ledakan” (blast radius) dan “subjektivitas terkecil” (least agency): ini tidak hanya tentang hak akses minimal, tetapi juga pembatasan ketat terhadap tindakan agen, frekuensi panggilan, dan area yang dapat diaksesnya.

Zero Trust untuk sistem agen

Untuk perlindungan, perusahaan menawarkan model kematangan tiga tingkat dan serangkaian langkah teknis dasar. Pada tingkat awal, panduan menyarankan untuk memberikan setiap instance agen identitas kriptografi unik, menggunakan token yang berumur pendek, menerapkan “larangan default” dan “pengelolaan akses berbasis peran”. Untuk agen yang bekerja dengan input tidak terpercaya seperti konten web dan dokumen, metode “eksekusi dalam sandbox” disebut sebagai langkah wajib.

Pada tingkat yang lebih tinggi, Anthropic menyarankan penerapan:

  • standar mTLS dengan otentikasi timbal balik antara klien dan server menggunakan sertifikat digital;
  • identitas yang terkait perangkat keras melalui HSM atau TPM, serta sertifikasi jarak jauh.

Kunci API statis dan kata sandi umum untuk akun layanan dalam dokumen disebut tidak cocok bahkan untuk tingkat dasar.

Bagian besar didedikasikan untuk observabilitas. Anthropic menyarankan pencatatan semua tindakan agen secara rinci, termasuk panggilan alat, akses data, dan komunikasi eksternal, kemudian mengirimkan peristiwa ke SIEM untuk korelasi secara real-time. Di antara metrik utama disebutkan dwell time dan coverage. Untuk sistem kritis, waktu deteksi deviasi yang ditargetkan adalah dalam satu jam. Panduan ini juga menyarankan membangun “matriks traceability” untuk mengaitkan setiap tindakan agen dengan permintaan awal dan merekonstruksi seluruh rantai keputusan.

Masa depan Security Operations Center — agen di bawah kendali manusia

Dalam bagian respons, Anthropic merumuskan prinsip: mengotomatisasi birokrasi seputar insiden, tetapi tidak keputusan kunci. Agen dan model disarankan untuk menangani pengumpulan dan penyaringan awal artefak, menjalankan cabang penyelidikan paralel, dan menyiapkan draft post-mortem. Keputusan tentang penahanan, pengungkapan insiden, dan komunikasi dengan klien disarankan untuk diserahkan kepada manusia. Pendekatan yang sama diterapkan pada “operasi perlindungan” — dengan menyebutkan transisi dari SOAR klasik ke agen.

Dalam dokumen tersebut juga diberikan indikator kuantitatif. Anthropic merujuk pada studi Microsoft Spotlighting, di mana keberhasilan serangan tidak langsung melalui pencemaran prompt menurun dari lebih dari 50% menjadi kurang dari 2%. Perusahaan juga menyajikan hasil internal mereka tentang penggunaan “kategorisasi konstitusional”, yang menurut mereka memblokir lebih dari 95% upaya bypass dengan sedikit peningkatan kesalahan palsu.

Dalam bagian rantai pasokan, Anthropic menyarankan penggunaan AI-BOM, OpenSSF Scorecard, audit dependensi, dan analisis kemungkinan akses. Sebagai argumen, perusahaan menyebutkan studi internal yang menunjukkan bahwa 250 dokumen berbahaya cukup untuk menyisipkan backdoor ke model berukuran dari 600 juta hingga 13 miliar parameter.

Akhirnya, Anthropic menyimpulkan bahwa untuk agen AI, filter titik dan perlindungan perimeter tidak cukup. Perusahaan menyarankan membangun perlindungan di sekitar identitas, hak minimal, kerusakan yang sudah dibatasi sebelumnya, dan pemeriksaan tindakan secara konstan. Menurut penilaian Anthropic, organisasi yang paling siap bukanlah yang memiliki AI paling canggih, tetapi yang memiliki arsitektur keamanan dasar yang lebih kuat.

Perlu diingat, pada bulan Juni tim Anthropic memperingatkan tentang risiko mencapai rekursif self-improvement dari AI.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar