Setelah dua kecelakaan dalam seminggu, melihat kembali bagaimana tujuh pendiri Anthropic membahas 「keamanan」setahun yang lalu

Judul video asli: Building Anthropic | Sebuah percakapan dengan para co-founder kami
Sumber video asli: Anthropic
Kompilasi naskah asli: 深潮 TechFlow

Ringkasan poin-poin

Dalam minggu lalu, Anthropic mengalami dua kali insiden berturut-turut:

Pertama, sekitar 3000 dokumen internal hampir diakses publik karena kesalahan konfigurasi CMS, lalu berikutnya, Claude Code v2.1.88 menyertakan 59.8MB source map saat dirilis di npm, 510 ribu baris kode sumber langsung terpapar.

Sebuah perusahaan yang menuliskan “keamanan” ke dalam gennya terus tergelincir dalam operasionalnya sendiri, rasa sarkasnya terasa maksimal.

Namun sebelum buru-buru mengejek, ada baiknya kita dengarkan kembali percakapan internal Anthropic yang dilakukan oleh tujuh rekan pendiri lebih dari satu tahun lalu. Podcast ini direkam pada Desember 2024. Tujuh orang membahas bagaimana perusahaan ini dibangun, bagaimana RSP (Responsible Scaling Policy, terjemahan langsung “Kebijakan Ekspansi yang Bertanggung Jawab”) dipoles, mengapa kata “keamanan” tidak boleh dipakai sembarangan, serta kalimat CEO Dario yang berkali-kali dikutip:

“Jika sebuah gedung setiap minggu berbunyi alarm kebakaran, maka gedung itu sebenarnya adalah bangunan yang sangat tidak aman.”

Sekarang mendengar kalimat itu lagi, rasanya memang sudah tidak sama.

Tujuh rekan pendiri, cepat kenali wajah

Dario Amodei|CEO, mantan Wakil Presiden Riset OpenAI, berlatar belakang ilmu saraf; penentu akhir jalur strategi dan keamanan di Anthropic. Orang yang paling sering berbicara dalam percakapan ini.

Daniela Amodei|Presiden, kakak perempuan Dario. Pernah bekerja di Stripe selama lima setengah tahun, memimpin tim trust & safety; lebih awal juga bekerja di bidang nirlaba dan pembangunan internasional. Pembangunan organisasi dan komunikasi eksternal Anthropic pada dasarnya dipimpin olehnya.

Jared Kaplan|Profesor fisika yang beralih menjadi peneliti AI, salah satu penulis inti scaling laws. Sering memberikan penilaian dari perspektif orang luar, dan menyebut dirinya dulu membuat AI karena “bosan mengerjakan fisika.”

Chris Olah|Tokoh perwakilan riset interpretabilitas (interpretability). Masuk komunitas AI di Bay Area pada usia 19 tahun, lalu bekerja di Google Brain dan OpenAI. Orang dengan idealisme teknis paling kuat di Anthropic.

Tom Brown|Penulis pertama di paper GPT-3, kini mengelola sumber daya komputasi Anthropic. Perspektifnya lebih condong ke rekayasa dan infrastruktur; di podcast dia membahas banyak proses dari “kurang percaya AI akan secepat ini” hingga mengubah pandangannya.

Jack Clark|Mantan jurnalis teknologi Bloomberg; Kepala Kebijakan & Urusan Publik di Anthropic. Dalam percakapan ini, ia bertindak sebagai pembawa acara, bertugas menyambung sesi dan mengajukan pertanyaan susulan.

Sam McCandlish|Rekan riset co-founder; paling sedikit bicara dalam keseluruhan sesi, namun seringnya satu kalimat langsung menusuk inti, tipe “posisi penutup pukulan.”

Poin-poin pandangan yang menarik

Mengapa membuat AI: dari fisika yang membosankan sampai “setelah cukup melihat, baru percaya”

Jared Kaplan: “Saya dulu mengerjakan fisika untuk waktu yang lama, agak bosan, dan saya juga ingin bekerja dengan lebih banyak teman, jadi saya membuat AI.”

Dario Amodei: “Saya tidak merasa saya punya penjelasan yang spesifik untuk meyakinkan Anda; saya hanya terus menunjukkan hasil dari model AI. Pada suatu titik, setelah saya menunjukkan terlalu banyak, Anda jadi berkata, ‘Ya, ini terlihat benar.’”

Taruhan melawan arus konsensus: kebanyakan konsensus adalah efek kawanan yang menyamar jadi kematangan

Jared Kaplan: “Banyak peneliti AI yang secara psikologis terluka parah oleh AI winter, seolah-olah ada ambisi itu tidak boleh.”

Dario Amodei: “Pelajaran terdalam saya selama sepuluh tahun terakhir adalah: banyak konsensus yang ‘semua orang tahu’ ternyata adalah efek kawanan yang menyamar jadi kematangan. Anda pernah melihat konsensus dibalik dalam semalam, lalu orang-orang berkata, ‘Tidak, kita bertaruh ini.’ Meski Anda hanya benar 50%, Anda tetap akan berkontribusi banyak hal yang tidak dikontribusikan orang lain.”

Keamanan dan skalabilitas saling terkait

Dario Amodei: “Salah satu motivasi saat kami memperbesar model adalah: model harus cukup pintar dulu agar RLHF bisa dijalankan. Itulah yang masih kami yakini sampai sekarang: keamanan dan skalabilitas saling terkait.”

RSP, kebijakan ekspansi yang bertanggung jawab adalah “konstitusi” Anthropic

Tom Brown: “Bagi Anthropic, RSP itu seperti ‘konstitusi’ kami. Ini adalah dokumen inti yang bersifat panduan, jadi kami bersedia menginvestasikan banyak waktu dan tenaga untuk menyempurnakannya berulang kali.”

Dario Amodei: “RSP akan menghentikan rencana yang tidak sesuai standar keamanan agar tidak terus maju. Kami tidak sekadar berkhotbah; kami benar-benar mengintegrasikan keamanan ke setiap langkah.”

Alarm kebakaran terlalu sering berbunyi; saat benar-benar terbakar, tidak ada yang lari

Daniela Amodei: “Kami tidak bisa menggunakan kata ‘keamanan’ sembarangan untuk mengarahkan perkembangan kerja. Target sebenarnya kami adalah membuat semua orang benar-benar paham keamanan yang kami maksud itu apa.”

Dario Amodei: “Yang paling merusak keamanan biasanya adalah ‘simulasi keamanan’ yang sering dilakukan. Jika sebuah gedung setiap minggu bunyi alarm kebakaran, maka itu sebenarnya bangunan yang sangat tidak aman.”

“Kegagalan yang mulia” adalah perangkap

Chris Olah: “Ada anggapan bahwa tindakan yang paling bermoral adalah mengorbankan target lain demi keamanan untuk menunjukkan kemurnian niat pada bidang tersebut. Tapi cara seperti ini pada kenyataannya adalah tindakan yang merusak diri sendiri. Karena ini membuat kendali keputusan jatuh ke tangan orang-orang yang tidak memprioritaskan keamanan.”

Para co-founder berkomitmen menyumbang 80% pendapatan

Tom Brown: “Kami bersama-sama berkomitmen untuk menyumbangkan 80% pendapatan kepada usaha yang mampu mendorong kemajuan sosial—ini adalah hal yang didukung semua orang tanpa ragu.”

Tidak ada yang ingin memulai bisnis, tapi merasa harus begini

Sam McCandlish: “Sebenarnya tidak ada di antara kami yang sejak awal berniat mendirikan perusahaan. Kami hanya merasa ini adalah tanggung jawab kami, karena ini adalah satu-satunya cara untuk memastikan perkembangan AI maju ke arah yang benar.”

Daniela Amodei: “Misi kami jelas dan murni, hal seperti ini tidak sering terjadi di industri teknologi.”

Interpretabilitas: di jaringan saraf tersimpan seluruh “biologi buatan”

Chris Olah: “Jaringan saraf itu sangat menakjubkan; ada banyak keindahan yang bahkan belum pernah kami lihat. Kadang saya membayangkan, sepuluh tahun ke depan masuk ke toko buku, membeli buku pelajaran tentang biologi jaringan saraf—isi buku itu akan dipenuhi berbagai hal yang luar biasa.”

AI untuk memperkuat demokrasi, bukan menjadi alat otoritarian

Dario Amodei: “Kami khawatir kalau AI dikembangkan dengan salah, ia bisa menjadi alat bagi rezim otoriter. Bagaimana caranya agar AI menjadi alat untuk mendorong kebebasan dan penentuan nasib sendiri? Pentingnya bidang ini sama sekali tidak kalah dengan biologi dan interpretabilitas.”

Dari rapat Gedung Putih sampai hadiah Nobel: pengaruh AI sudah melampaui komunitas teknologi

Jared Kaplan: “Pada tahun 2018, Anda tidak akan membayangkan seorang presiden memanggil Anda ke Gedung Putih untuk berbicara bahwa mereka sedang memperhatikan model bahasa.”

Dario Amodei: “Kami sudah melihat hadiah Nobel di bidang kimia diberikan kepada AlphaFold. Kita seharusnya berupaya mengembangkan alat yang bisa membantu kita menciptakan ratusan AlphaFold.”

Mengapa meneliti AI?

Jack Clark: Kita mulai membuat AI karena apa? Jared, kenapa kamu membuat AI?

Jared Kaplan: “Saya dulu mengerjakan fisika untuk waktu yang lama, agak bosan, dan saya juga ingin bekerja dengan lebih banyak teman, jadi saya membuat AI.”

Tom Brown: “Saya kira itu karena Dario yang meyakinkanmu.”

Dario Amodei: “Saya tidak merasa saya meyakinkanmu dengan cara yang spesifik; saya hanya terus menunjukkan hasil model AI, untuk menegaskan bahwa hasil itu berlaku secara umum, bukan hanya untuk satu masalah tertentu. Pada suatu titik, setelah saya menunjukkan cukup banyak, Anda jadi berkata, ‘Ya, ini terlihat benar.’”

Jack Clark: Chris, saat kamu melakukan riset interpretabilitas, apakah kamu mengenal orang-orang itu di Google?

Chris Olah: “Bukan. Sebenarnya saat saya pertama kali datang ke Bay Area umur 19 tahun, saya sudah mengenal banyak orang dari kelompok kalian. Waktu itu saya melihat Dario dan Jared—mereka saat itu postdoc, dan bagi saya mereka sangat keren. Kemudian saya di Google Brain; setelah Dario bergabung, kami sempat duduk berdampingan dalam satu periode. Saya juga pernah bekerja dengan Tom, dan kemudian ketika saya pindah ke OpenAI, saya bekerja dengan kalian semua.”

**Jack Clark: **“Saya ingat tahun 2015 saya bertemu Dario di sebuah konferensi, dan Dario ingin mewawancarai Anda. Bahkan PR Google berkata saya harus membaca semua paper Anda dulu.”

Dario Amodei: “Waktu itu saya menulis di Google ‘Concrete Problems in AI Safety’.”

Sam McCandlish: “Saya mulai bekerja sama denganmu, dan kamu mengundang saya untuk ngobrol di kantor, semacam menjelaskan AI secara keseluruhan. Saya masih ingat setelah ngobrol, saya berpikir: ‘Ternyata ini jauh lebih serius daripada yang saya kira.’ Waktu itu kamu membahas ‘Big Blob of Compute’, jumlah parameter, skala neuron otak manusia, dan sebagainya.”

Ekspansi yang mematahkan kebiasaan

Jack Clark: Saya ingat saat kami bekerja di OpenAI melakukan scaling laws, saat model mulai diperbesar itu benar-benar menjadi efektif, dan di banyak proyek hal itu terus bekerja dengan cara yang aneh—dari GPT-2 ke scaling laws sampai GPT-3, kami terus makin dekat begini.

Dario Amodei: “Kami memang kelompok ‘orang yang membuat sesuatu jadi terjadi’.”

Jared Kaplan: “Kami juga sangat bersemangat soal keamanan. Waktu itu ada gagasan: AI akan sangat kuat, tapi mungkin tidak memahami nilai-nilai manusia, bahkan mungkin tidak bisa berkomunikasi dengan kita. Sebagian, language model bisa memastikan ia memahami banyak pengetahuan implisit.”

Dario Amodei: “Selain itu ada RLHF yang ada di atas language model. Salah satu motivasi kami memperbesar model waktu itu adalah: model harus cukup pintar dulu agar RLHF bisa berjalan. Itulah yang masih kami yakini sampai sekarang: keamanan dan skalabilitas saling terkait.”

Chris Olah: “Betul. Waktu itu pekerjaan scaling juga sebenarnya bagian dari tim keamanan. Karena kami merasa, agar orang serius menangani keamanan, pertama-tama mereka harus mampu memprediksi tren AI.

Jack Clark: Saya ingat saya di sebuah bandara di Inggris, mengambil sampel dari GPT-2 untuk menulis berita bohong, lalu mengirimkannya ke Dario di Slack sambil bilang, “Ini beneran bisa dipakai, dan mungkin punya dampak kebijakan yang besar.” Saya ingat respons Dario adalah, “Ya.”

Setelah itu, kami juga melakukan banyak pekerjaan terkait rilis—dan itu sangat gila.

Daniela Amodei: “Saya ingat bagian rilis itu. Itu pertama kali kami benar-benar mulai bekerja sama; waktu itu GPT-2 dirilis.”

Jack Clark: “Saya pikir itu sangat membantu kami. Kami mulai bersama-sama melakukan sesuatu yang agak aneh tapi berorientasi keamanan, lalu kemudian bersama-sama membangun Anthropic: sesuatu yang skalanya lebih besar, masih agak aneh, namun tetap berorientasi keamanan.”

Tahap awal AI

Tom Brown: “Balik lagi ke artikel ‘Concrete Problems’. Saya masuk OpenAI pada 2016. Waktu itu kita berdua termasuk batch paling awal. Saya merasa paper itu seperti paper keamanan AI arus utama yang pertama. Bagaimana paper itu bisa muncul?”

Dario Amodei: “Chris tahu—dia terlibat. Waktu itu di Google, saya bahkan lupa apa proyek utama saya saat itu. Paper itu seperti sesuatu yang saya tunda-tunda sampai jadi.”

Kami ingin menuliskan masalah-masalah yang masih terbuka dalam keamanan AI. Waktu itu keamanan AI selalu dibahas terlalu abstrak. Kami ingin menurunkannya ke ML yang nyata pada saat itu. Sekarang garis kerja ini sudah berjalan enam atau tujuh tahun, tapi waktu itu itu masih semacam gagasan aneh.

Chris Olah: “Menurut saya, dalam beberapa arti itu hampir seperti proyek politik. Waktu itu banyak orang tidak menganggap keamanan dengan serius. Kami ingin menyusun daftar masalah yang masuk akal dan disepakati orang banyak. Banyak di antaranya sebenarnya memang sudah ada di literatur, lalu kami mencari orang-orang lintas institusi yang kredibel untuk menandatangani bersama.”

Saya ingat menghabiskan waktu yang lama—berkomunikasi dengan lebih dari dua puluh peneliti di Brain—untuk mendapatkan dukungan publikasi. Kalau hanya melihat masalahnya saja, kalau sekarang kita menoleh ke belakang, belum tentu semuanya valid; mungkin bukan pertanyaan yang paling tepat. Tapi jika kita menganggapnya sebagai pembangunan konsensus: membuktikan bahwa “ada masalah yang nyata di sini, dan layak ditangani dengan serius,” maka itu adalah momen yang penting.

Jack Clark: “Akhirnya kamu masuk ke semesta sci-fi yang sangat aneh. Saya ingat Anthropic di awal berbicara tentang Constitutional AI. Jared berkata, ‘Kami menulis sebuah konstitusi untuk language model, dan perilakunya akan jadi begini.’ Waktu itu terdengar gila. Kenapa kalian merasa itu masuk akal?”

Jared Kaplan: “Saya berdiskusi lama dengan Dario. Saya merasa di AI, metode yang sederhana sering kali justru sangat efektif. Versi paling awalnya cukup kompleks, lalu terus dipangkas. Akhirnya tinggal begini: manfaatkan keunggulan model dalam menjawab pilihan ganda; berikan prompt yang jelas untuk menunjukkan apa yang harus dicari, dan itu sudah cukup. Lalu kita bisa menuliskan prinsip-prinsipnya secara langsung.”

Dario Amodei: “Ini kembali ke ‘The Big Blob of Compute’ ‘The Bitter Lesson’ ‘Scaling Hypothesis’: selama Anda bisa memberi AI tujuan yang jelas dan data, ia akan belajar. Sekumpulan instruksi, sekumpulan prinsip—language model bisa membacanya, dan juga bisa membandingkannya dengan perilakunya sendiri. Target pelatihan ada di sana. Jadi pandangan saya bersama Jared adalah: ini bisa dilakukan, asalkan detailnya diulang-ulang sampai pas.”

Jared Kaplan: “Bagi saya, di awal itu terasa aneh. Saya pindah dari fisika. Sekarang semua orang bersemangat soal AI, mudah melupakan suasana waktu itu. Waktu saya berbicara dengan Dario, saya merasa banyak peneliti AI terluka secara psikologis oleh AI winter; seolah ‘punya ambisi’ tidak diizinkan. Diskusi soal keamanan menuntut Anda percaya bahwa AI bisa sangat kuat dan sangat berguna, tetapi pada saat itu ada semacam larangan anti-ambisi. Kelebihan fisikawan adalah ‘sombong’—mereka sering melakukan hal-hal yang ambisius, dan terbiasa membicarakan gambaran besar.”

Dario Amodei: “Saya pikir itu memang benar. Di 2014, banyak hal yang ‘tidak boleh dibicarakan’. Itu juga seperti masalah umum di akademik: kecuali beberapa bidang tertentu, institusi makin tidak suka risiko. Industrial AI juga mewarisi sikap itu. Saya rasa baru sekitar 2022 situasi itu mulai keluar.”

Chris Olah: “Ada juga dua bentuk dari ‘konservatif’: satu adalah benar-benar memandang risiko dengan serius, yang lain adalah menganggap sikap serius terhadap risiko dan sekaligus percaya bahwa gagasan itu mungkin berhasil sebagai bentuk kesombongan. Waktu itu kami berada di bawah dominasi bentuk yang kedua. Dalam sejarah diskusi fisika nuklir 1939 juga mirip: Fermi menolak, sementara Szilard atau Teller lebih serius memandang risiko.”

Dario Amodei: “Pelajaran terdalam saya selama sepuluh tahun terakhir adalah: banyak konsensus ‘semua orang tahu’ ternyata adalah efek kawanan yang menyamar jadi kematangan. Anda pernah melihat konsensus beberapa kali dibalik dalam semalam, lalu orang-orang berkata: ‘Tidak, kita bertaruh ini.’ Mungkin tidak selalu benar, tapi abaikan kebisingan dan bertaruh. Bahkan kalau Anda hanya benar 50%, Anda tetap berkontribusi banyak hal yang tidak dikontribusikan orang lain.”

Perubahan sikap publik terhadap kecerdasan buatan

Jared Kaplan: “Hal yang sama juga terjadi pada beberapa topik keamanan saat ini. Konsensus dari luar menganggap banyak masalah keamanan yang tidak wajar muncul dari teknologi, tapi riset yang kami lakukan di Anthropic melihat bahwa hal itu memang bisa tumbuh secara alami.”

Daniela Amodei: “Namun dalam 18 bulan terakhir, ini sedang berubah. Pada saat yang sama, emosi dunia terhadap AI juga jelas berubah. Ketika kami melakukan riset pengguna, lebih sering kami mendengar pengguna biasa khawatir tentang dampak AI terhadap dunia secara keseluruhan.”

Kadang yang dikhawatirkan adalah soal pekerjaan, bias, toksisitas; kadang soal ‘apakah itu akan mengacaukan dunia, dan mengubah cara manusia berkolaborasi’. Ini sebenarnya tidak sepenuhnya saya perkirakan.

Sam McCandlish: “Entah kenapa, lingkaran riset ML sering lebih pesimistis daripada publik tentang ‘AI akan menjadi sangat kuat’.”

Jared Kaplan: “Pada 2023 saya dan Dario ke Gedung Putih. Dalam rapat itu, Harris dan Raimondo pada dasarnya maksudnya: kami menatap kalian. AI ini adalah hal besar. Kami benar-benar memperhatikan. Tapi pada 2018, Anda tidak akan membayangkan ‘presiden akan memanggil Anda ke Gedung Putih untuk mengatakan bahwa mereka sedang memperhatikan model bahasa.’”

Tom Brown: “Yang menarik adalah, banyak dari kami masuk ke arena ini saat belum ada kepastian. Mirip seperti Fermi yang ragu tentang bom atom: ada beberapa bukti bahwa bom atom bisa dibuat, tetapi juga banyak bukti bahwa bom atom tidak akan dibuat. Tapi akhirnya dia memutuskan untuk mencoba. Karena kalau itu benar, dampaknya sangat besar, jadi layak dilakukan.”

Pada 2015-2017 ada beberapa, dan terus bertambah, bukti bahwa AI mungkin menjadi hal besar. Pada 2016 saya mengobrol dengan mentor: saya pernah berbisnis, ingin membuat keamanan AI, tetapi kemampuan matematis saya belum cukup kuat, dan saya tidak tahu harus bagaimana. Saat itu ada yang bilang Anda harus menguasai teori keputusan. Ada juga yang bilang kejadian AI gila tidak akan muncul, dan orang yang benar-benar mendukungnya sangat sedikit.

Jack Clark: “Saya dianggap gila saat di 2014 membuat laporan tren ImageNet. Tahun 2015, saya ingin menulis tentang NVIDIA karena paper-paper mereka juga mengangkat GPU, dan saya juga dibilang gila. Pada 2016 saya keluar dari dunia berita untuk ke AI, dan ada email yang bilang ‘Anda melakukan kesalahan terbesar dalam hidup Anda’. Dilihat dari banyak sisi, memang tampak seperti orang gila jika benar-benar bertaruh bahwa skalabilitas akan berhasil.”

Jared Kaplan: “Bagaimana kamu memutuskan? Ragu-ragu?”

Jack Clark: “Saya melakukan reverse taruhan: saya membuat permintaan agar jadi jurnalis AI full-time dan gaji saya digandakan. Saya tahu mereka tidak akan mengabulkan. Lalu setelah tidur semalaman, saya berhenti. Karena saya tiap hari membaca dokumen arsip, saya selalu merasa ada hal gila yang sedang terjadi; pada suatu titik, Anda harus bertaruh dengan keyakinan tinggi.”

Tom Brown: “Saya tidak secepat itu; saya goyah selama enam bulan.”

Daniela Amodei: “Dan saat itu, gagasan ‘insinyur juga bisa secara signifikan mendorong AI’ bukan arus utama. Saat itu yang ada adalah ‘hanya peneliti yang bisa membuat AI’, jadi keragu-raguanmu itu wajar.”

Tom Brown: “Lalu OpenAI berkata, ‘Anda bisa membantu keamanan AI melalui rekayasa.’ Nah, itu yang membuat saya bergabung. Daniela, kamu masih menjadi manajer saya di OpenAI; saat itu kenapa kamu bergabung?

Daniela Amodei: “Saya bekerja di Stripe selama lima setengah tahun. Greg dulu adalah bos saya. Saya juga memperkenalkan Greg dan Dario. Waktu itu Greg sedang mendirikan OpenAI, dan saya bilang kepadanya: ‘Orang paling pintar yang saya kenal adalah Dario. Kalau Anda bisa membuatnya bergabung ke tim, itu benar-benar keberuntungan Anda.’ Setelah itu, Dario bergabung ke OpenAI.”

Mungkin mirip denganmu, saya juga memikirkan apa yang harus saya lakukan setelah meninggalkan Stripe. Saya bergabung ke Stripe karena sebelumnya, saat bekerja di organisasi nirlaba dan bidang pembangunan internasional, saya merasa saya perlu lebih banyak keterampilan. Saat itu saya bahkan mengira pada akhirnya saya akan kembali ke bidang itu.

Sebelum bergabung ke Stripe, saya merasa saya tidak punya cukup kemampuan untuk membantu orang-orang yang kondisinya lebih buruk daripada saya. Jadi saya menaruh perhatian pada perusahaan teknologi lain, berharap menemukan cara baru untuk memberikan dampak yang lebih besar. Lalu OpenAI membuat saya merasa itu pilihan yang sangat baik: ia adalah organisasi nirlaba, yang berkomitmen untuk mencapai tujuan yang sangat penting dan berjangkauan jauh.

Saya selalu percaya pada potensi AI. Saya mengenal Dario juga, dan mereka memang butuh orang untuk membantu mengelola. Jadi saya merasa pekerjaan ini sangat cocok dengan latar belakang saya. Waktu itu saya berpikir: “Ini organisasi nirlaba. Di sini berkumpul sekelompok orang yang sangat luar biasa dan punya visi yang indah, tapi cara operasinya tampaknya masih agak berantakan.” Dan justru tantangan itulah yang membuat saya bersemangat—karena saya bisa ikut masuk.

Saat itu saya merasa seperti generalis: tidak hanya mengelola anggota tim, tapi juga memimpin tim-tim teknis tertentu, serta mengelola perluasan organisasi. Saya menangani pekerjaan ekspansi organisasi, juga pernah bekerja di tim bahasa, dan kemudian menangani beberapa tugas lain. Saya juga ikut dalam beberapa urusan kebijakan, dan bekerja sama dengan Chris. Saya merasa ada banyak talenta luar biasa di perusahaan, dan itu membuat saya sangat ingin bergabung, membantu perusahaan menjadi lebih efisien dan lebih tertata.

Jack Clark: “Saya ingat, setelah selesai GPT-3, kamu bilang ‘kalian dengar tentang trust and safety nggak?’”

Daniela Amodei: “Saya pernah memimpin tim trust and safety di Stripe. Untuk teknologi seperti ini, kalian mungkin perlu mempertimbangkan masalah trust and safety. Ini sebenarnya jembatan antara riset keamanan kecerdasan buatan (AI Safety Research) dan kerja harian yang lebih praktis—yaitu bagaimana membuat model benar-benar aman.”

Mengajukan gagasan bahwa teknologi ini di masa depan akan berdampak besar sangat penting. Pada saat yang sama, kita juga perlu melakukan pekerjaan yang lebih praktis dalam rutinitas untuk menyiapkan fondasi menghadapi skenario berisiko lebih tinggi di masa depan.

Kebijakan Ekspansi yang Bertanggung Jawab: memastikan perkembangan AI yang aman

Jack Clark: “Ini pas sekali untuk membahas bagaimana strategi Ekspansi yang Bertanggung Jawab (RSP, Responsible Scaling Policy) dikembangkan, kenapa kita memikirkan itu, dan bagaimana kita menerapkannya sekarang—terutama mengingat pekerjaan yang saat ini kita lakukan di area trust & safety model. Jadi, RSP (kebijakan ekspansi yang bertanggung jawab) ini pertama kali dicetuskan oleh siapa?”

Dario Amodei: “Awalnya saya dan Paul Christiano yang mengusulkannya, sekitar akhir 2022. Gagasan paling awalnya adalah: apakah kita harus menahan sementara ekspansi model ke skala tertentu sampai kita menemukan cara untuk memecahkan beberapa masalah keamanan?”

Namun kemudian kami merasa, hanya membatasi ekspansi pada titik tertentu lalu melepas batas lagi itu agak aneh. Jadi kami memutuskan untuk menetapkan serangkaian ambang batas. Setiap kali model mencapai satu ambang batas, perlu dilakukan serangkaian pengujian untuk menilai apakah model memiliki kemampuan keamanan yang sesuai.

Saat setiap ambang batas tercapai, kami perlu menerapkan langkah-langkah keamanan dan perlindungan yang semakin ketat. Tetapi sejak awal kami juga punya pemikiran: kalau hal ini dijalankan oleh pihak ketiga, mungkin akan lebih baik. Artinya, strategi ini tidak boleh dipikul sendiri oleh satu perusahaan, karena perusahaan lain mungkin tidak bersedia mengadopsinya. Jadi Paul yang merancang strateginya secara langsung. Tentu, seiring waktu, banyak detail di dalamnya juga berubah. Di tim kami, kami terus meneliti cara agar strategi ini bisa bekerja lebih baik.

Setelah Paul merapikan konsep itu menjadi bentuk yang matang, hampir bersamaan dengan pengumuman konsep tersebut, dalam satu atau dua bulan kami juga menerbitkan versi kami sendiri. Faktanya, banyak anggota tim kami terlibat dalam proses ini secara mendalam. Saya ingat saya setidaknya pernah menulis salah satu draf awal; lalu dokumen ini mengalami banyak revisi.

Tom Brown: “Bagi Anthropic, RSP itu seperti ‘konstitusi’ kami. Ini adalah dokumen inti yang memiliki nilai panduan, jadi kami bersedia meluangkan banyak waktu dan tenaga untuk menyempurnakannya berulang kali, demi memastikan akurasi dan kelengkapannya.”

Daniela Amodei: “Saya rasa, proses perkembangan RSP di Anthropic sangat menarik. RSP melewati beberapa fase, dan implementasinya juga membutuhkan beragam jenis kemampuan. Misalnya, ada beberapa gagasan besar—bagian ini terutama ditangani oleh Dario, Paul, Sam, dan Jared. Mereka memikirkan: ‘Apa prinsip inti kami? Informasi apa yang ingin kami sampaikan? Bagaimana cara memastikan arah kami benar?’”

Namun selain itu, ada juga pekerjaan yang sangat praktis di level operasional. Dalam iterasi yang terus berlangsung, kami menilai dan menyesuaikan detail-detail tertentu. Misalnya, kami sempat memperkirakan pada tingkat keamanan tertentu kami akan mencapai target tertentu; jika itu tidak tercapai, kami akan menilai ulang dan memastikan kami bertanggung jawab atas hasil kerja kami.

Selain itu, ada banyak penyesuaian yang berkaitan dengan struktur organisasi. Misalnya, kami memutuskan mendesain ulang struktur organisasi RSP agar pembagian tanggung jawab lebih jelas. Saya suka analogi menggunakan “konstitusi” untuk dokumen ini. Seperti Amerika Serikat, untuk memastikan konstitusi bisa dijalankan, mereka membangun seluruh rangkaian institusi dan lembaga seperti pengadilan, Mahkamah Agung, presiden, serta dua kamar parlemen. Walaupun lembaga-lembaga itu juga punya tanggung jawab lain, keberadaannya pada dasarnya untuk menjaga konstitusi; dan RSP di Anthropic juga sedang mengalami proses yang mirip.

Sam McCandlish: “Saya pikir ini mencerminkan pandangan inti kami terhadap masalah keamanan: masalah keamanan adalah sesuatu yang bisa diselesaikan. Ini tugas yang sangat kompleks dan berat, sehingga membutuhkan investasi waktu dan tenaga yang besar.”

Seperti di bidang keselamatan mobil, sistem dan institusi terkait baru terbentuk setelah bertahun-tahun berkembang. Namun masalah yang kita hadapi sekarang adalah: apakah kita punya cukup waktu untuk menyelesaikan pekerjaan itu? Jadi, kita harus secepat mungkin menemukan institusi kunci yang dibutuhkan untuk keamanan AI, membangunnya terlebih dahulu di sini, sambil memastikan institusi tersebut bisa dijadikan rujukan dan disebarluaskan ke tempat lain.

Dario Amodei: “Ini juga membantu keselarasan kolaborasi di dalam organisasi, karena jika ada bagian mana pun dalam organisasi yang bertindak tidak sesuai nilai keamanan kami, RSP akan menyingkap masalah itu dengan cara tertentu, betul? RSP akan menghentikan mereka agar tidak terus menjalankan rencana yang tidak sesuai standar keamanan. Jadi RSP juga menjadi alat pengingat yang terus-menerus untuk memastikan keamanan menjadi persyaratan dasar dalam proses pengembangan produk dan perencanaan.** Kami tidak sekadar mengucapkan slogan; kami benar-benar mengintegrasikan keamanan ke setiap langkah.** Jika ada orang yang bergabung ke tim tapi tidak bisa menyetujui prinsip-prinsip ini, mereka akan menyadari bahwa mereka tidak bisa berbaur. Pilihannya hanya: menyesuaikan arah ini, atau menyadari bahwa mereka sulit untuk terus bertahan.”

Jack Clark: “Seiring waktu, RSP menjadi makin penting. Kami menghabiskan ribuan jam untuk itu, dan ketika saya menjelaskannya ke para senator, saya mengatakan: ‘Kami membuat beberapa langkah untuk memastikan teknologi kami tidak mudah disalahgunakan, sekaligus juga menjamin keamanan.’ Respons mereka biasanya: ‘Itu terdengar wajar. Bukankah setiap perusahaan melakukan hal seperti itu?’ Ini membuat saya agak tersenyum pahit—karena kenyataannya tidak setiap perusahaan melakukan itu.”

Daniela Amodei:Selain itu, saya pikir RSP juga meningkatkan transparansi perusahaan, di luar sekadar menyelaraskan nilai-nilai tim. Karena RSP mencatat dengan jelas apa target kami. Semua orang di dalam perusahaan bisa memahaminya. Pada saat yang sama, pihak luar juga bisa melihat dengan jelas apa tujuan dan arah kami dalam hal keamanan. Walaupun masih belum sempurna, kami terus mengoptimalkan dan meningkatkannya.”

Saya pikir dengan tegas menunjukkan “apa masalah inti yang kita pedulikan,” kita tidak bisa menggunakan kata “keamanan” untuk mengarahkan perkembangan kerja secara sembarangan. Misalnya: “Karena masalah keamanan, kita tidak boleh melakukan sesuatu.” Atau: “Karena masalah keamanan, kita harus melakukan sesuatu.” Target sebenarnya kami adalah membuat semua orang paham keamanan yang kami maksud itu apa.

Dario Amodei: “Dalam jangka panjang, yang paling merusak keamanan biasanya adalah ‘simulasi keamanan’ yang sering. Saya pernah bilang: ‘Jika ada sebuah gedung, tiap minggu alarm kebakaran berbunyi, maka gedung itu sebenarnya sangat tidak aman.’ Karena saat kebakaran benar-benar terjadi, mungkin tak ada yang peduli. Kita harus sangat memperhatikan akurasi dan kalibrasi alarm.”

Chris Olah: “Kalau dilihat dari sudut pandang lain, saya merasa RSP menciptakan mekanisme insentif yang sehat di banyak lapisan. Misalnya, di dalam perusahaan, RSP menyelaraskan insentif setiap tim dengan target keamanan. Ini berarti jika kita tidak mencapai kemajuan yang cukup dalam keamanan, pekerjaan terkait akan dihentikan.”

Di luar perusahaan juga, RSP bisa menciptakan insentif yang lebih sehat dibanding metode lain. Misalnya, jika suatu hari kita harus melakukan tindakan besar, seperti mengakui, “Model kami sudah berkembang sampai tahap tertentu, tapi kami belum bisa memastikan keamanannya,” maka RSP menyediakan kerangka kerja yang jelas dan bukti untuk mendukung keputusan itu. Kerangka itu sudah ada sejak awal, jelas, dan mudah dipahami. Saat kami membahas versi awal RSP, saya belum sepenuhnya menyadari potensinya, tapi sekarang saya pikir RSP memang lebih efektif daripada metode lain yang bisa saya bayangkan.”

Jared Kaplan: “Saya setuju dengan pandangan-pandangan itu, tapi saya merasa ini bisa meremehkan tantangan yang kami hadapi ketika menyusun kebijakan yang benar, menentukan standar evaluasi, dan menetapkan batas. Kami sudah melakukan iterasi besar-besaran dalam semua aspek ini, dan masih terus mengoptimalkannya. Masalah sulitnya adalah: untuk beberapa teknologi yang masih berkembang, kadang sulit untuk menentukan apakah sesuatu itu berbahaya atau aman secara jelas. Banyak kali, kami menghadapi area abu-abu besar. Tantangan inilah yang membuat saya sangat bersemangat saat pengembangan awal RSP, dan sampai sekarang pun tetap begitu. Namun pada saat yang sama, saya juga sadar: penerapan strategi ini secara jelas dan membuatnya benar-benar bekerja jauh lebih kompleks dan menantang daripada yang saya bayangkan pada awalnya.”

Sam McCandlish: “Area abu-abu tidak bisa diprediksi sepenuhnya, karena keberadaannya ada di mana-mana. Hanya saat Anda benar-benar mulai menerapkan, barulah Anda menemukan masalahnya. Jadi target kami adalah menerapkan semuanya sedini mungkin, supaya kami bisa menemukan potensi masalah secepat mungkin.”

Dario Amodei: “Anda harus melakukan iterasi tiga sampai empat kali agar benar-benar sempurna. Iterasi adalah alat yang sangat kuat; hampir tidak mungkin jika pertama kali Anda sudah benar-benar tepat. Jadi jika risikonya terus meningkat, Anda harus menyelesaikan iterasi secepatnya, bukan menunggu sampai akhir.”

Jack Clark: “Pada saat yang sama,** Anda juga perlu membangun institusi dan proses internal.** Detailnya bisa berubah seiring waktu, tapi membangun kemampuan eksekusi tim yang paling penting.”

Tom Brown: “Saya mengurus manajemen sumber daya komputasi Anthropic. Bagi saya, kami perlu berkomunikasi dengan para pemangku kepentingan eksternal. Berbeda orang eksternal punya pandangan yang berbeda tentang seberapa cepat teknologi berkembang. Awalnya saya juga berpikir teknologi tidak akan berkembang secepat itu, tapi kemudian pandangan saya berubah, dan saya sangat bisa memahaminya. Saya merasa RSP sangat berguna bagi saya, terutama saat berdiskusi dengan orang-orang yang yakin teknologi berkembang lebih lambat. Kita bisa memberi tahu mereka: ‘Sebelum teknologi berkembang ke tingkat yang benar-benar mendesak, kami tidak perlu mengambil langkah-langkah keamanan ekstrem.’ Kalau mereka bilang: ‘Saya rasa hal-hal tidak akan menjadi mendesak dalam waktu lama,’ maka saya bisa menanggapi: ‘Oke, jadi untuk sementara kita tidak perlu mengambil langkah-langkah keamanan ekstrem.’ Ini membuat komunikasi dengan pihak luar jadi lebih lancar.”

Jack Clark: “Lalu, dalam aspek apa saja RSP memengaruhi semua orang?”

Sam McCandlish: “Semuanya berkisar pada evaluasi; tiap tim melakukan evaluasi. Misalnya tim pelatihan selalu melakukan evaluasi; kami mencoba memastikan apakah model sudah cukup kuat sehingga berpotensi membawa bahaya.”

Daniela Amodei: “Ini berarti kami harus menilai performa model sesuai standar RSP, termasuk memeriksa apakah ada tanda-tanda yang berpotensi membuat kami khawatir.”

Sam McCandlish: “Menilai kemampuan minimum model relatif mudah. Tetapi menilai kemampuan maksimum sangat sulit. Jadi kami menginvestasikan banyak tenaga riset untuk menjawab pertanyaan seperti: ‘Apakah model bisa menjalankan tugas-tugas berbahaya tertentu? Apakah ada metode yang belum kami pertimbangkan, seperti peta pikiran (mind map), best event, atau penggunaan alat tertentu—apakah semua ini bisa membuat model mampu melakukan perilaku yang sangat berbahaya?’”

Jack Clark: “Dalam proses penyusunan kebijakan, alat evaluasi ini sangat membantu. Karena ‘keamanan’ adalah konsep yang sangat abstrak. Ketika saya berkata: ‘Kami punya alat evaluasi yang menentukan apakah kami boleh mendistribusikan model ini,’ maka kami bisa bekerja sama dengan pembuat kebijakan, para ahli keamanan nasional, dan pakar bidang CBRN (kimia, biologi, radiologi, dan nuklir) untuk menyusun standar evaluasi yang presisi. Tanpa alat yang spesifik seperti itu, kerja sama seperti ini mungkin tidak akan terjadi sama sekali. Tetapi begitu standar itu jelas, orang akan lebih bersedia terlibat untuk memastikan akurasinya. Jadi dalam aspek ini, peran RSP sangat nyata.”

Daniela Amodei: “Bagi saya, RSP juga sangat penting, dan sering memengaruhi cara kerja saya. Yang menarik adalah, cara saya memikirkan RSP agak unik: lebih dari sisi ‘intonasi’—yaitu cara penyampaiannya. Belakangan ini kami melakukan perubahan besar pada nada/intonasi RSP, karena sebelumnya nadanya terlalu teknis, bahkan terasa seperti ada kesan berseberangan. Saya menghabiskan banyak waktu untuk memikirkan bagaimana membangun sistem yang membuat orang mau ikut terlibat di dalamnya.”

Jika RSP adalah dokumen yang bisa dengan mudah dipahami semua orang di perusahaan, maka hasilnya akan jauh lebih baik. Seperti OKR (Objectives and Key Results/tujuan dan hasil kunci) yang kami gunakan sekarang. Contohnya: apa tujuan utama RSP? Bagaimana kita tahu apakah targetnya tercapai? Berapa tingkat keamanan AI saat ini (ASL)? Apakah ASL-2 atau ASL-3? Jika setiap orang tahu fokus yang harus diperhatikan, menemukan potensi masalah akan jadi lebih mudah. Sebaliknya, jika RSP terlalu teknis sehingga hanya sedikit orang yang memahaminya, manfaat nyatanya akan sangat berkurang.

Sangat menyenangkan melihat RSP berkembang menuju arah yang lebih mudah dipahami. Sekarang, saya rasa sebagian besar orang di perusahaan, bahkan mungkin semuanya tanpa memandang jabatan mereka, bisa membaca dokumen ini dan merasa: “Ini masuk akal. Saya ingin mengembangkan AI dengan panduan prinsip-prinsip berikut, dan saya juga paham kenapa kita perlu fokus pada hal-hal ini. Jika saya menemui masalah dalam pekerjaan saya, saya kira saya punya gambaran tentang apa yang harus saya perhatikan.” Kami ingin RSP cukup sederhana, seperti orang yang bekerja di pabrik manufaktur yang bisa langsung menilai: “Sabuk pengaman harus terhubung ke sini, tapi sekarang belum terpasang dengan benar.” Dengan begitu masalah bisa ditemukan lebih awal.

Kuncinya adalah membangun mekanisme umpan balik yang sehat, sehingga bisa ada komunikasi yang lancar antara pimpinan, dewan direksi, departemen lain di perusahaan, dan tim yang benar-benar melakukan riset dan pengembangan. Saya pikir: kebanyakan masalah muncul karena komunikasi yang tidak lancar atau adanya penyimpangan dalam penyampaian informasi. Jika masalah hanya muncul karena hal-hal seperti itu, itu tentu sangat disayangkan, betul? Pada akhirnya, yang perlu kita lakukan adalah menerapkan gagasan-gagasan ini secara nyata dan memastikan semuanya sederhana, jelas, dan mudah dipahami semua orang.

Kisah pendirian Anthropic

Sam McCandlish: “Sebenarnya tidak ada di antara kami yang sejak awal berniat mendirikan perusahaan. Kami hanya merasa ini adalah tanggung jawab kami; kami harus bertindak, karena ini adalah satu-satunya cara untuk memastikan perkembangan AI berjalan ke arah yang benar. Itulah sebabnya kami berkomitmen pada janji itu.”

Dario Amodei: “Gagasan saya awalnya sederhana: saya hanya ingin menemukan dan mengeksplor hal-hal baru dengan cara yang bermanfaat. Gagasan ini membawa saya masuk ke bidang AI. Riset AI membutuhkan banyak dukungan teknik, dan pada akhirnya juga butuh banyak dukungan pendanaan.”

Namun saya menemukan bahwa jika tidak ada tujuan dan rencana yang jelas untuk mendirikan perusahaan dan mengelola lingkungan, banyak hal bisa saja dikerjakan, tetapi justru akan mengulang kesalahan-kesalahan industri teknologi yang membuat saya merasa menjauh. Kesalahan-kesalahan ini biasanya bersumber dari orang-orang yang sama, sikap yang sama, dan pola pikir yang sama. Jadi pada suatu titik, saya menyadari bahwa kami harus melakukan ini dengan cara yang benar-benar baru; itu hampir tidak terhindarkan.

Jared Kaplan: “Ingat saat kita masih kuliah pascasarjana, kamu punya rencana lengkap untuk mengeksplor bagaimana riset ilmiah bisa mendorong kepentingan publik. Saya merasa ini sangat mirip dengan cara kita berpikir sekarang. Saya ingat kamu saat itu punya proyek bernama ‘Project Vannevar’, yang tujuannya adalah mewujudkan hal itu. Saat itu saya menjadi profesor. Saya mengamati keadaan pada waktu itu dan sangat yakin bahwa pengaruh AI sedang tumbuh dengan kecepatan yang sangat luar biasa.”

Namun karena riset AI sangat membutuhkan dana, ditambah lagi karena saya sendiri adalah profesor fisika, saya sadar bahwa saya tidak bisa mendorong kemajuan ini hanya lewat riset akademis. Saya ingin bisa membangun sebuah institusi bersama orang-orang yang tepercaya, untuk memastikan perkembangan AI berjalan ke arah yang benar. Tapi jujur, saya tidak pernah menyarankan orang lain untuk mendirikan perusahaan, dan saya juga tidak pernah punya keinginan seperti itu. Bagi saya, ini hanya cara untuk mencapai tujuan. Saya pikir biasanya kuncinya adalah benar-benar peduli pada pencapaian tujuan yang bermakna bagi dunia, lalu menemukan cara terbaik untuk mewujudkannya.

Bagaimana membangun budaya kepercayaan

Daniela Amodei: “Saya sering memikirkan keunggulan strategis tim kami. Salah satu faktor—mungkin terdengar agak mengejutkan, tapi sebenarnya sangat penting—adalah tingkat kepercayaan yang tinggi di antara kami. Membuat sekelompok besar orang memiliki misi bersama itu sangat sulit. Tapi di Anthropic, kami mampu menularkan rasa misi itu kepada semakin banyak orang. Di tim ini, termasuk pimpinan dan semua anggota, semua berkumpul karena misi bersama. Misi kami jelas dan murni, dan hal seperti ini tidak umum dalam industri teknologi.”

Saya merasa tujuan yang sedang kami upayakan memiliki makna yang murni. Tidak ada dari kami yang memulai karena ingin mendirikan perusahaan. Kami hanya merasa kami harus melakukannya. Kami tidak bisa terus mendorong pekerjaan kami di tempat yang lama; kami harus menyelesaikannya sendiri.

Jack Clark: “Saat itu, dengan kemunculan GPT-3, dan karena semua orang telah bersentuhan atau terlibat dalam proyek-proyek seperti scaling laws, pada 2020 kami sudah jelas melihat tren perkembangan AI. Kami menyadari jika tidak segera bertindak, mungkin akan sampai pada titik batas yang tidak bisa dibalik. Kami harus bertindak agar bisa memberi pengaruh pada lingkungan ini.”

Tom Brown: “Saya ingin melanjutkan pandangan Daniela. Saya memang yakin ada tingkat kepercayaan yang tinggi di dalam tim. Masing-masing dari kami paham kami bergabung karena ingin memberi kontribusi bagi dunia. Kami juga bersama-sama berkomitmen untuk menyumbangkan 80% pendapatan kepada usaha yang mendorong kemajuan sosial; ini adalah hal yang didukung semua orang tanpa ragu: ‘Ya, tentu saja kami akan melakukannya.’ Kepercayaan seperti ini sangat spesial dan langka.”

Daniela Amodei: “Saya rasa Anthropic adalah perusahaan yang hampir tidak memiliki warna politik. Tentu, perspektif kami mungkin berbeda dari orang biasa, dan saya selalu mengingatkan diri sendiri akan hal itu. Saya pikir proses rekrutmen kami dan karakteristik anggota tim membuat budaya di sini secara alami menolak ‘politik kantor’.”

Dario Amodei: “Selain itu, kekompakan tim itu sangat penting. Entah itu tim produk, tim riset, tim trust & safety, tim pemasaran, atau tim kebijakan—semuanya bekerja untuk mencapai tujuan perusahaan yang sama. Jika di dalam perusahaan departemen yang berbeda mengejar tujuan yang benar-benar berbeda, biasanya akan menghasilkan kekacauan. Jika mereka merasa departemen lain sedang merusak pekerjaannya, itu jelas bukan hal yang normal.”

Saya pikir salah satu pencapaian paling penting kami adalah sukses menjaga konsistensi menyeluruh perusahaan. Mekanisme seperti RSP memainkan peran besar di dalamnya. Mekanisme ini memastikan bahwa bukan hanya beberapa departemen yang menciptakan masalah dan departemen lain mencoba memperbaikinya, tetapi semua departemen menjalankan fungsi masing-masing sambil bekerja sama dalam kerangka satu teori perubahan (theory of change).

Chris Olah: “Saya bergabung dengan OpenAI pada awalnya karena ia adalah organisasi nirlaba, jadi saya bisa fokus pada riset keamanan AI. Tapi seiring waktu, saya sadar pola itu tidak sepenuhnya cocok untuk saya, dan itu memaksa saya mengambil beberapa keputusan sulit. Dalam proses ini, saya sangat percaya pada penilaian Dario dan Daniela, tapi saya tidak ingin meninggalkan. Karena saya merasa menambah lebih banyak lab AI belum tentu bermanfaat bagi dunia, membuat saya sangat ragu untuk pergi.”

Saat akhirnya kami memutuskan untuk pergi, saya tetap ragu tentang mendirikan perusahaan. Saya pernah berpendapat bahwa kami harus mendirikan organisasi nirlaba yang fokus pada riset keamanan. Tapi sikap yang lebih pragmatis dan kejujuran terhadap batasan-batasan nyata membuat kami menyadari bahwa mendirikan Anthropic adalah cara terbaik untuk mencapai tujuan kami.

Dario Amodei: “Salah satu pelajaran penting yang kami ambil di awal adalah: sedikit janji, banyak pembuktian. Tetap realistis dan hadapi trade-off dengan berani. Karena kepercayaan dan reputasi lebih penting daripada kebijakan mana pun yang spesifik.

Daniela Amodei:Keunikan Anthropic ada pada kepercayaan yang tinggi dan kesatuan di dalam tim. Misalnya, ketika saya melihat Mike Krieger bersikeras tidak merilis produk tertentu karena alasan keamanan, lalu di saat yang sama melihat Vinay membahas bagaimana menyeimbangkan kebutuhan bisnis supaya proyek bisa selesai—saya merasa itu sangat khusus. Selain itu, insinyur dari tim keamanan teknis dan tim penalaran juga berdiskusi tentang bagaimana memastikan produk aman sekaligus berguna. Kesatuan tujuan dan sikap pragmatis seperti itulah salah satu hal yang paling menarik dari lingkungan kerja Anthropic.”

Dario Amodei:Budaya organisasi yang sehat berarti semua orang bisa memahami dan menerima trade-off yang dihadapi bersama. Dunia yang kami jalani tidak sempurna. Setiap keputusan harus menyeimbangkan berbagai kepentingan, dan keseimbangan itu sering kali tidak bisa benar-benar memuaskan. Namun selama seluruh tim bisa menghadapi trade-off itu bersama-sama di bawah tujuan yang sama, dan dari posisi masing-masing berkontribusi untuk tujuan keseluruhan, itulah ekosistem yang sehat.”

Sam McCandlish: “**Dalam beberapa arti, ini adalah kompetisi ‘ke atas’. Ya, ini benar-benar kompetisi ‘ke atas’. Walaupun ini bukan pilihan yang benar-benar tanpa risiko—bisa saja semuanya salah—kami sepakat: ‘Ini adalah pilihan yang kami buat.’’”

Bersaing menuju puncak AI

Jack Clark: “Tapi pasar pada dasarnya bersifat pragmatis. Jadi semakin sukses Anthropic sebagai perusahaan, semakin besar dorongan orang lain untuk meniru cara-cara yang membuat kami berhasil. Dan saat keberhasilan kami sangat terkait dengan pekerjaan nyata kami di bidang keamanan, keberhasilan itu akan menciptakan semacam ‘daya tarik’ di industri, mendorong perusahaan lain ikut dalam persaingan ini. Sama seperti kami membuat sabuk pengaman; perusahaan lain juga bisa menirunya. Itu ekosistem yang sehat.”

Dario Amodei: “Namun jika Anda mengatakan: ‘Kami tidak akan mengembangkan teknologi ini, dan kalian juga tidak bisa mengungguli orang lain,’ itu tidak akan berhasil. Karena Anda tidak membuktikan bahwa jalur dari kondisi saat ini ke masa depan itu memungkinkan. Yang dibutuhkan dunia adalah, baik di seluruh industri maupun pada satu perusahaan, menemukan cara agar masyarakat bisa berpindah dari ‘teknologi tidak ada’ ke ‘teknologi ada dalam bentuk yang kuat’ dan dikelola secara efektif oleh masyarakat. Saya pikir satu-satunya cara untuk mencapai tujuan itu adalah menempuh trade-off itu secara langsung pada tingkat perusahaan tunggal, bahkan pada akhirnya pada tingkat seluruh industri.”

Anda perlu menemukan cara yang bisa menjaga daya saing—bahkan memimpin industri di beberapa bidang—dan sekaligus memastikan keamanan teknologi.** Jika Anda bisa melakukan ini, daya tarik Anda terhadap industri akan sangat kuat. Mulai dari lingkungan regulasi, harapan untuk merekrut talenta terbaik dari berbagai perusahaan, hingga pandangan pelanggan—semua faktor ini akan mendorong industri bergerak ke arah yang sama. Jika Anda bisa membuktikan bahwa keamanan bisa dicapai tanpa mengorbankan daya saing, artinya menemukan solusi yang saling menguntungkan, maka perusahaan lain juga akan termotivasi untuk meniru.**

Jared Kaplan: “Saya pikir inilah alasan kenapa mekanisme seperti RSP sangat penting. Dengan mekanisme itu, kita bisa melihat dengan jelas arah perkembangan teknologi, dan kita menyadari kita harus sangat waspada pada beberapa masalah. Tapi pada saat yang sama, kita juga harus menghindari kesalahan ‘teriak serigala datang’—tidak cukup hanya berkata: ‘inovasi harus berhenti di sini.’ Kita perlu menemukan cara supaya teknologi AI memberi pengalaman yang berguna, inovatif, dan menyenangkan bagi pelanggan, sambil menetapkan batas-batas yang harus dipatuhi. Batas-batas itu harus bisa memastikan keamanan sistem, sekaligus meyakinkan perusahaan lain bahwa mereka juga bisa berhasil dengan tetap mengutamakan keamanan, dan bersaing dengan kami.”

Dario Amodei: “Beberapa bulan setelah kami meluncurkan RSP, tiga perusahaan AI paling terkenal juga mulai mengeluarkan mekanisme serupa. Riset interpretabilitas adalah bidang terobosan lain bagi kami. Selain itu, kami juga bekerja sama dengan institusi riset keamanan AI. Perhatian menyeluruh terhadap keamanan ini sedang memberi dampak besar.”

Jack Clark: “Ya, Frontier Red Team hampir langsung ditiru oleh perusahaan lain. Ini hal yang baik. Kami ingin semua lab menguji potensi kerentanan keamanan yang berisiko tinggi.”

Daniela Amodei: “Seperti yang Jack sempat sebutkan juga, pelanggan sangat peduli soal keamanan. Pelanggan tidak mau model menghasilkan informasi palsu, dan juga tidak mau model mudah dilewati batas keamanan. Mereka menginginkan model yang berguna dan tidak membahayakan. Dalam komunikasi kami dengan pelanggan, sering kali mereka bilang: ‘Kami memilih Claude karena kami tahu ia lebih aman.’ Saya pikir ini dampak pasar yang sangat besar. Kami bisa menyediakan model yang layak dipercaya dan andal, dan ini menambah tekanan pasar yang cukup besar bagi para pesaing.”

Chris Olah: “Mungkin kita bisa memperluas pandangan Dario tadi. Ada gagasan bahwa tindakan paling bermoral adalah ‘kegagalan yang mulia’. Artinya, Anda mengorbankan target lain demi keamanan, bahkan bertindak dengan cara yang tidak realistis, untuk menunjukkan kemurnian niat pada pekerjaan itu. Tapi saya pikir cara seperti ini sebenarnya adalah tindakan yang merugikan diri sendiri.”

Pertama, cara itu akan membuat kendali keputusan jatuh ke tangan orang-orang yang tidak menganggap keamanan itu penting atau bahkan tidak memprioritaskannya. Di sisi lain, jika Anda berusaha mencari cara untuk menyelaraskan insentif, menempatkan keputusan sulit di tempat yang paling kuat mendukung keputusan yang benar, dan menjadikannya berlandaskan bukti yang paling kuat, maka Anda bisa memicu kompetisi ‘ke atas’ yang dijelaskan Dario. Dalam kompetisi itu, bukan orang yang peduli keamanan yang terpinggirkan—melainkan orang lain dipaksa untuk mengikuti langkah Anda dan bergabung dalam kompetisi itu.

Mengintip masa depan kecerdasan buatan

Jack Clark: “Kalau untuk hal-hal yang akan kita lakukan ke depan, apa yang membuat kalian bersemangat?”

Chris Olah: “Saya pikir ada banyak alasan untuk bersemangat tentang interpretabilitas. Salah satunya jelas karena pertimbangan keamanan. Tapi ada alasan lain yang membuat saya bersemangat secara emosional—atau terasa sangat bermakna. Saya pikir jaringan saraf itu sangat menakjubkan, dan di dalamnya ada banyak keindahan yang belum pernah kami lihat. Kita selalu memperlakukan jaringan saraf seperti black box, dan tidak terlalu peduli pada struktur internalnya. Tapi ketika Anda mulai meneliti lebih dalam, Anda akan menemukan bahwa internalnya penuh dengan struktur yang menakjubkan.”

Ini agak mirip bagaimana orang memandang biologi: ada yang mungkin merasa, “Evolusi itu membosankan; itu proses sederhana, berjalan lama, lalu menciptakan hewan.” Tetapi pada kenyataannya, setiap hewan yang diciptakan evolusi penuh dengan kompleksitas dan struktur yang luar biasa. Dan saya pikir evolusi adalah proses optimasi, seperti melatih jaringan saraf. Di dalam jaringan saraf juga ada struktur kompleks yang mirip semacam “biologi buatan.” Jika Anda mau meneliti lebih dalam, Anda akan menemukan banyak hal yang menakjubkan di sana.

Saya merasa kita baru mulai perlahan mengupas selubungnya. Ini sangat luar biasa; ada terlalu banyak hal yang menunggu untuk ditemukan. Kita baru mulai membuka pintunya. Saya rasa temuan berikutnya akan sangat seru dan menakjubkan. Kadang saya membayangkan, sepuluh tahun ke depan masuk ke toko buku dan membeli buku pelajaran tentang interpretabilitas jaringan saraf, atau buku yang benar-benar menjelaskan “biologi” dari jaringan saraf. Isinya akan dipenuhi berbagai hal yang menakjubkan. Saya yakin dalam sepuluh tahun ke depan, bahkan beberapa tahun mendatang, kita akan mulai benar-benar menemukan hal-hal itu. Ini akan menjadi perjalanan yang gila dan menakjubkan.

Jack Clark: “Beberapa tahun lalu, jika ada yang bilang: ‘Pemerintah akan membentuk lembaga baru untuk menguji dan mengevaluasi sistem AI, dan lembaga itu akan sangat profesional serta benar-benar berfungsi,’ Anda mungkin tidak akan percaya. Tapi itu sudah terjadi. Bisa dikatakan, pemerintah telah membangun ‘kedutaan besar baru’ untuk kategori teknologi baru ini. Saya penasaran untuk melihat ke mana ini akan menuju. Saya pikir ini sebenarnya berarti negara punya kapasitas untuk menangani transformasi sosial seperti itu, bukan hanya bergantung pada perusahaan. Saya sangat senang bisa terlibat di dalamnya.”

Daniela Amodei: “Saya sekarang sudah bersemangat soal hal ini. Tapi saya juga merasa, hanya membayangkan masa depan AI bisa melakukan apa untuk manusia itu sulit untuk tidak membuat kita bersemangat. Bahkan sekarang saja, bukti bahwa Claude bisa membantu pengembangan vaksin, riset kanker, dan riset biologi—itu sudah luar biasa. Melihat apa yang sudah bisa dilakukan saat ini saja sudah sangat mengagumkan. Dan ketika saya membayangkan tiga sampai lima tahun ke depan, membayangkan Claude benar-benar bisa menyelesaikan banyak masalah mendasar yang dihadapi manusia, khususnya di bidang kesehatan, itu membuat saya sangat bersemangat. Mengingat kembali hari-hari saya bekerja di bidang pembangunan internasional, betapa menakjubkannya kalau waktu itu Claude bisa membantu menyelesaikan pekerjaan yang efisiennya rendah.”

Tom Brown: “Dari perspektif pribadi, saya sangat suka menggunakan Claude dalam pekerjaan saya. Jadi belakangan ini saya juga sering memakai Claude di rumah untuk membicarakan hal-hal tertentu. Perubahan terbesar belakangan ini adalah soal kode. Enam bulan lalu, saya belum pernah menggunakan Claude untuk pekerjaan yang terkait pemrograman, dan tim kami juga sangat jarang menggunakan Claude untuk menulis kode. Tapi sekarang kondisinya sudah berubah secara signifikan. Contohnya minggu lalu saya membuat presentasi di sebuah acara yang diselenggarakan oleh Y Combinator. Saat saya mulai bertanya, ‘Berapa banyak dari kalian yang menggunakan Claude untuk coding?’ hampir 95% orang mengangkat tangan. Hampir semua orang mengangkat tangan; ini benar-benar berbeda dari empat bulan yang lalu.”

Dario Amodei: “Saat saya memikirkan hal-hal yang membuat saya bersemangat, saya memikirkan misalnya hal yang tampaknya sudah mencapai konsensus, tapi sebenarnya konsensus itu justru akan digoyang. Salah satunya adalah interpretabilitas. Saya pikir interpretabilitas bukan hanya kunci untuk membimbing dan memastikan keamanan sistem AI—ia juga membawa wawasan mendalam tentang masalah optimasi kecerdasan dan cara kerja otak manusia. Saya pernah bilang Chris Olah pada masa depan akan mendapatkan Nobel Kedokteran.”

Karena saya dulu seorang ilmuwan saraf, dan saya menduga banyak penyakit mental yang belum bisa kita selesaikan, seperti skizofrenia atau gangguan emosi, terkait dengan semacam masalah sistem yang lebih tingkat tinggi. Namun karena kompleksitas otak manusia dan sifatnya yang sulit diteliti secara langsung, masalah-masalah itu sulit dipahami sepenuhnya. Sementara itu, jaringan saraf—walaupun bukan analogi yang sempurna—tidak sesulit otak manusia untuk dipahami dan diinteraksikan. Seiring waktu, jaringan saraf akan menjadi alat analogi yang jauh lebih baik.

Bidang terkait lainnya adalah penggunaan AI di bidang biologi. Biologi adalah masalah yang sangat kompleks. Karena berbagai alasan, orang masih meragukannya, tapi saya pikir konsensus keraguan itu mulai runtuh. Kami sudah melihat hadiah Nobel di bidang kimia diberikan kepada AlphaFold, sebuah pencapaian yang luar biasa. Kita harus berupaya mengembangkan alat yang bisa membantu kita menciptakan ratusan “AlphaFold.”

Terakhir, gunakan AI untuk memperkuat demokrasi. Kami khawatir kalau AI dikembangkan dengan salah, ia bisa menjadi alat otoritarian.** Jadi, bagaimana membuat AI menjadi alat untuk mendorong kebebasan dan penentuan nasib sendiri?** Saya pikir perkembangan di bidang ini mungkin sedikit lebih awal daripada dua bidang pertama, tapi pentingnya sama sekali tidak kalah.

Jared Kaplan: “Saya ingin menyoroti setidaknya dua hal yang selaras dengan pandanganmu sebelumnya. Satu: saya rasa banyak orang bergabung dengan Anthropic karena mereka sangat penasaran pada sains AI. Seiring kemajuan teknologi AI, mereka perlahan menyadari bahwa kita tidak hanya perlu mendorong perkembangan teknologi, tapi juga perlu memahaminya lebih dalam dan memastikan keamanannya. Saya merasa sangat mengasyikkan bisa bekerja bersama lebih banyak orang yang punya visi yang sama tentang perkembangan AI dan tanggung jawabnya. Dan saya pikir banyak kemajuan teknis yang terjadi di sepanjang tahun lalu memang mendorong konsensus seperti itu terbentuk.”

Aspek lainnya, kembali ke masalah yang praktis, saya pikir kami sudah melakukan banyak hal dalam keamanan AI. Tapi dengan beberapa perkembangan terbaru, kami mulai memiliki pemahaman awal tentang risiko yang bisa ditimbulkan oleh sistem yang sangat canggih. Ini memungkinkan kami untuk menginvestigasi dan menyelidiki risiko-risiko itu secara langsung melalui riset interpretabilitas dan mekanisme keamanan jenis lain.

Dengan cara ini, kami bisa memahami risiko yang mungkin dihadapi oleh sistem AI tingkat lanjut dengan lebih jelas. Ini akan membuat kami bisa mendorong misi kami dengan cara yang lebih ilmiah dan berbasis bukti. Jadi saya sangat bersemangat untuk enam bulan ke depan: kami akan memanfaatkan pemahaman tentang potensi masalah pada sistem tingkat lanjut, untuk melakukan riset lebih lanjut dan menemukan cara menghindari jebakan-jebakan itu.

Tautan video asli

Klik untuk mempelajari tentang perekrutan BlockBeats di posisi terbuka

Selamat datang untuk bergabung dengan komunitas resmi律动 BlockBeats:

Grup langganan Telegram: https://t.me/theblockbeats

Grup Telegram: https://t.me/BlockBeats_App

Akun Twitter resmi: https://twitter.com/BlockBeatsAsia

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan