Apa sebenarnya yang dilakukan oleh Agen AI? Analisis lengkap bocornya 500.000 baris kode Claude Code

51,2 万 baris kode, 1906 file, source map berukuran 59,8 MB. Pada dini hari 31 Maret, Chaofan Shou dari Solayer Labs menemukan bahwa produk andalan Anthropic, Claude Code, mengekspos seluruh kode sumber ke repositori publik npm. Dalam beberapa jam, kodenya dicerminkan ke GitHub, dan jumlah fork menembus 41 ribu.

Ini bukan pertama kalinya Anthropic melakukan kesalahan semacam itu. Saat Claude Code pertama kali dirilis pada Februari 2025, kebocoran source map yang sama juga sempat terjadi. Versi kali ini adalah v2.1.88, dengan penyebab kebocoran yang sama: alat build Bun secara default menghasilkan source map, dan file tersebut tertinggal di dalam .npmignore.

Sebagian besar pemberitaan mengulas telur-telur kejutan dalam pendataan kebocoran, misalnya sistem hewan peliharaan virtual, serta “mode penyamaran” agar Claude secara anonim mengirimkan kode ke proyek open source. Tetapi masalah yang benar-benar layak dibedah adalah: mengapa model Claude yang sama menunjukkan perbedaan yang begitu besar di versi web dan di Claude Code? 51,2 万 baris kode itu sebenarnya sedang mengerjakan apa?

Model hanyalah sekilas gunung es

Jawabannya tersimpan dalam struktur kodenya. Menurut analisis balik terhadap kode sumber yang bocor oleh komunitas GitHub, dari 51,2 万 baris TypeScript, kode antarmuka yang secara langsung bertugas memanggil model AI hanya sekitar 8000 baris, atau 1,6% dari total.

Lalu 98,4% sisanya sedang melakukan apa? Dua modul terbesar adalah mesin kueri (46 ribu baris) dan sistem alat (29 ribu baris). Mesin kueri menangani pemanggilan LLM API, keluaran streaming, orkestrasi cache, dan manajemen percakapan multi-babak. Sistem alat mendefinisikan sekitar 40 alat bawaan dan 50 perintah slash, membentuk arsitektur seperti plugin, di mana setiap alat memiliki kontrol izin yang independen.

Selain itu ada 25 ribu baris kode rendering antarmuka UI terminal (salah satu file bernama print.ts panjangnya mencapai 5594 baris, dengan satu fungsi melintasi 3167 baris), 20 ribu baris kontrol keamanan dan izin (mencakup 23 pemeriksaan keamanan Bash bernomor dan 18 perintah bawaan Zsh yang disaring), serta sistem orkestrasi multi-agen sebanyak 18 ribu baris.

Peneliti riset machine learning Sebastian Raschka, setelah menganalisis kode yang bocor, menyatakan bahwa Claude Code menjadi lebih kuat dibanding versi web untuk model yang sama, inti masalahnya bukan pada model itu sendiri, melainkan pada scaffolding perangkat lunak yang dibangun di sekeliling model: termasuk pemuatan konteks repositori, penjadwalan alat khusus, strategi cache, dan kolaborasi sub-agen. Bahkan ia berpendapat bahwa jika arsitektur rekayasa yang sama diterapkan pada model lain seperti DeepSeek atau Kimi, maka juga bisa memperoleh peningkatan performa pemrograman yang mendekati.

Perbandingan yang intuitif dapat membantu memahami kesenjangan ini. Saat Anda memasukkan sebuah pertanyaan di ChatGPT atau Claude versi web, model memproses lalu mengembalikan jawaban, dan saat percakapan berakhir tidak tersisa apa pun. Tetapi cara Claude Code benar-benar berbeda: saat startup, ia terlebih dahulu membaca berkas proyek Anda, memahami struktur codebase, dan mengingat preferensi yang Anda sebutkan sebelumnya seperti “jangan mock database dalam pengujian”. Ia dapat menjalankan perintah, mengedit berkas, dan menjalankan tes langsung di terminal Anda; ketika menghadapi tugas kompleks, ia akan memecahnya menjadi beberapa sub-tugas dan mendistribusikannya ke berbagai sub-agen untuk dikerjakan secara paralel. Dengan kata lain, AI versi web adalah jendela tanya-jawab, sementara Claude Code adalah kolaborator yang tinggal di komputer Anda.

Ada yang membandingkan arsitektur ini dengan sistem operasi: 42 alat bawaan setara dengan system call, sistem izin setara dengan manajemen pengguna, protokol MCP setara dengan driver perangkat, dan orkestrasi sub-agen setara dengan penjadwalan proses. Setiap alat secara bawaan saat dirilis ditandai sebagai “tidak aman, dapat ditulis”, kecuali pengembang secara proaktif menyatakan bahwa alat tersebut aman. Alat untuk mengedit file memaksa pengecekan apakah Anda sudah membaca file tersebut terlebih dahulu; jika belum, maka tidak diizinkan untuk mengubahnya. Ini bukan sekadar chatbot yang memasang beberapa alat, melainkan lingkungan eksekusi dengan inti LLM serta mekanisme keamanan penuh.

Ini berarti satu hal: penghalang persaingan produk AI mungkin bukan berada pada level model, melainkan pada level rekayasa.

Setiap cache miss, biaya naik 10 kali

Dalam kode yang bocor ada file bernama promptCacheBreakDetection.ts, yang melacak 14 jenis vektor yang mungkin menyebabkan prompt cache menjadi tidak valid. Kenapa insinyur Anthropic harus menghabiskan begitu banyak upaya untuk mencegah cache miss?

Lihat saja tarif resmi Anthropic untuk mengetahuinya. Misalnya Claude Opus 4.6: harga input standar adalah 5 dolar per satu juta token, tetapi jika kena cache, harga baca hanya 0,5 dolar—lebih murah 90%. Sebaliknya, setiap kali terjadi cache miss, biaya inferensi harus naik 10 kali.

Ini menjelaskan banyak keputusan arsitektur yang tampak seperti “over-engineering” di kode yang bocor. Saat Claude Code melakukan startup, ia memuat branch git saat ini, catatan commit terbaru, dan file CLAUDE.md sebagai konteks. Konten statis ini di-cache secara global, dipisahkan oleh penanda pada batasnya untuk konten dinamis, sehingga memastikan setiap percakapan tidak memproses ulang konteks yang sudah ada. Di kode juga ada mekanisme bernama sticky latches, yang mencegah pergantian mode merusak cache yang sudah terbentuk. Sub-agen dirancang untuk menggunakan ulang cache dari parent process, bukan membangun ulang jendela konteks miliknya sendiri.

Ada detail yang layak diuraikan. Siapa pun yang pernah memakai alat pemrograman berbasis AI tahu: makin panjang percakapan, makin lambat balasan AI, karena setiap putaran percakapan harus mengirim ulang seluruh riwayat sebelumnya ke model. Praktik umum adalah menghapus pesan lama untuk membebaskan ruang, tetapi masalahnya: menghapus pesan apa pun akan memutus kontinuitas cache, sehingga seluruh riwayat percakapan perlu diproses ulang—keterlambatan dan biaya pun sama-sama melonjak.

Di kode yang bocor, ada mekanisme bernama cache_edits: caranya bukan benar-benar menghapus pesan, melainkan memberi pesan-pesan lama tanda “skip” pada lapisan API. Model tidak dapat melihat pesan-pesan tersebut lagi, tetapi kontinuitas cache tidak rusak. Ini berarti pada percakapan panjang yang berlangsung beberapa jam, setelah membersihkan ratusan pesan lama, kecepatan respons pada putaran berikutnya hampir sama cepatnya dengan putaran pertama. Bagi pengguna biasa, inilah jawaban mendasar “mengapa Claude Code bisa mendukung percakapan tak terbatas tanpa melambat”.

Menurut data pemantauan internal yang bocor (berasal dari komentar kode autoCompact.ts, dengan tanggal tertandai 10 Maret 2026), sebelum diperkenalkan batas kegagalan kompresi otomatis, Claude Code membuang sekitar 250 ribu panggilan API setiap hari. Ada 1279 user session yang mengalami lebih dari 50 kali kegagalan kompresi berturut-turut; session paling parah mengalami kegagalan 3272 kali berturut-turut. Perbaikannya hanya menambahkan satu baris pembatasan: MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3.

Jadi, untuk produk AI, biaya inferensi model mungkin bukan lapisan paling mahal, melainkan kegagalan manajemen cache.

44 sakelar, mengarah ke arah yang sama

Di dalam kode yang bocor terselip 44 feature flags—saklar fungsi yang sudah dikompilasi, hanya saja belum dirilis ke publik. Menurut analisis komunitas, flags ini dibagi menjadi lima kategori berdasarkan ranah fungsi; yang paling padat adalah kategori “agen otonom” (12), yang mengarah ke sebuah sistem bernama KAIROS.

KAIROS dikutip lebih dari 150 kali di dalam kode sumber. Ini adalah mode proses daemon yang menetap di latar belakang. Claude Code tidak lagi sekadar alat yang merespons ketika Anda memanggilnya secara aktif, melainkan sebuah agen yang selalu berjalan di latar belakang, terus memantau, mencatat, dan melakukan tindakan secara proaktif pada waktu yang tepat. Syaratnya: tidak mengganggu pengguna—setiap operasi yang berpotensi memblokir pengguna lebih dari 15 detik akan ditunda eksekusinya.

KAIROS juga memiliki sensor fokus terminal. Ada bidang terminalFocus di dalam kode yang mendeteksi secara real-time apakah pengguna sedang melihat jendela terminal. Saat Anda beralih ke browser atau aplikasi lain, agen menilai bahwa Anda “tidak ada”, lalu beralih ke mode otonom untuk menjalankan tugas secara proaktif dan mengirim kode langsung, tanpa menunggu konfirmasi Anda. Saat Anda kembali ke terminal, agen langsung kembali ke mode kolaborasi: pertama melaporkan apa yang baru saja dilakukan, lalu meminta pendapat Anda. Tingkat otonominya tidak tetap; ia berfluktuasi mengikuti perhatian Anda secara real-time. Ini mengatasi masalah canggung yang lama ada pada alat AI: AI yang sepenuhnya otonom membuat orang tidak nyaman, sedangkan AI yang sepenuhnya pasif efisiensinya terlalu rendah. Pilihan KAIROS adalah membuat inisiatif AI menyesuaikan secara dinamis dengan perhatian pengguna—ketika Anda menatapnya, ia “tenang”; ketika Anda pergi, ia mengerjakan pekerjaannya sendiri.

Sistem sub-lain KAIROS bernama autoDream: setiap kali terakumulasi 5 sesi, atau setiap jeda 24 jam, agen di latar belakang akan memulai proses “refleksi” yang berjalan dalam empat langkah. Pertama, memindai memori yang sudah ada untuk memahami apa yang saat ini ia kuasai. Kedua, mengekstrak pengetahuan baru dari log percakapan. Ketiga, menggabungkan pengetahuan baru dan lama, memperbaiki kontradiksi dan menghapus duplikasi. Terakhir, menyederhanakan indeks dengan menghapus entri yang sudah usang. Desain ini mengambil inspirasi dari teori peneguhan memori dalam ilmu kognitif. Saat manusia tidur, ia merapikan ingatan dari siang hari; KAIROS merapikan konteks proyek ketika pengguna pergi. Bagi pengguna biasa, ini berarti semakin lama Anda memakai Claude Code, pemahamannya terhadap proyek Anda akan semakin akurat, bukan sekadar “mengingat apa yang Anda katakan”.

Kategori terbesar kedua adalah “anti-distilasi & keamanan” (8 flags). Yang paling patut diperhatikan adalah mekanisme fake_tools: ketika 4 kondisi terpenuhi sekaligus (flag saat kompilasi diaktifkan, CLI entry aktif, memakai API first-party, dan GrowthBook remote switch bernilai true), Claude Code akan menyuntikkan definisi alat palsu ke dalam permintaan API, tujuannya adalah mencemari dataset yang mungkin merekam arus API untuk pelatihan model kompetitor. Ini adalah bentuk pertahanan baru dalam perlombaan persenjataan AI: bukan mencegah Anda meniru, melainkan membuat Anda meniru hal yang salah.

Selain itu, di kode juga muncul kode nama model Capybara (dibagi menjadi tiga tingkat: versi standar, versi fast, dan versi jendela konteks satu juta), yang banyak ditebak oleh komunitas sebagai kode internal untuk rangkaian Claude 5.

Telur kejutan: di 51,2 万 baris kode tersimpan seekor hewan peliharaan elektronik

Di sela-sela semua arsitektur rekayasa serius dan mekanisme keamanan, para insinyur Anthropic diam-diam juga membuat sistem hewan peliharaan virtual yang lengkap, dengan kode internal BUDDY.

Menurut kode yang bocor dan analisis komunitas, BUDDY adalah hewan peliharaan terminal yang dibuat seolah-olah memiliki sifat fisik (拟物化), yang muncul dalam bentuk kotak gelembung ASCII di samping kolom input pengguna. Ia memiliki 18 spesies (termasuk capybara, salamander berlendir, jamur, hantu, naga, serta sejumlah makhluk orisinal seperti Pebblecrab, Dustbunny, Mossfrog), dan dibagi menjadi lima tingkatan berdasarkan kelangkaan: biasa (60%), langka (25%), sangat langka (10%), epik (4%), dan legendaris (1%). Setiap spesies juga punya “varian berkilau”; Shiny Legendary Nebulynx yang paling langka hanya muncul dengan peluang sepersepuluh ribu (1 per 10.000).

Setiap BUDDY memiliki lima atribut: DEBUGGING (debugging), PATIENCE (kesabaran), CHAOS (kekacauan), WISDOM (kebijaksanaan), dan SNARK (canda sinis). Mereka juga dapat memakai topi; opsi termasuk mahkota, topi pesta, topi baling-baling, halo, topi penyihir, bahkan ada juga bebek mini. Nilai hash dari user ID menentukan hewan mana yang akan Anda tetas. Claude akan membuatkan nama dan kepribadiannya.

Menurut rencana peluncuran yang bocor, BUDDY semula dijadwalkan memulai uji coba internal pada 1 April hingga 7 April, lalu rilis resmi pada bulan Mei, dimulai dari karyawan internal Anthropic.

Dari 51,2 万 baris kode, 98,4% digunakan untuk rekayasa tingkat keras; namun pada akhirnya ada yang meluangkan waktu untuk membuat seekor kadal/kelompok salamander elektronik yang memakai topi baling-baling. Mungkin inilah satu baris kode paling manusiawi dalam kebocoran itu.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan