Membaca Karya Baru Anthropic: Cara Membangun Tim Kolaborasi AI-Manusia yang Efisien

Pada tanggal 24 Juni, blog resmi Anthropic menerbitkan artikel baru berjudul Building effective human-agent teams, ditulis oleh Kristen Swanson.

Inti artikel ini berfokus pada pergeseran paradigma dalam kolaborasi tim tingkat AI, dari "satu orang melawan satu kotak obrolan (meskipun di belakangnya ada banyak agen)" menuju "sekelompok orang dan sekelompok agen berbagi ruang kerja yang sama".

Penulis artikel ini akan menyampaikan ulang poin inti artikel asli, serta memberikan gambaran umum dan pemikiran komprehensif berdasarkan pengalaman penerapan agen AI.

I. Inti: Tim kolaborasi AI sedang berubah menjadi "mode daring"

Dulu, menggunakan AI selalu merupakan pengalaman "pemain tunggal (single-player)"—satu orang berkolaborasi dengan agen untuk menyelesaikan tugas pribadi.

Sekarang, model baru adalah manusia dan agen dapat berkolaborasi di ruang kerja yang sama, melayani tujuan bersama tim.

Pekerjaan mulai terasa lebih seperti "permainan multipemain (multiplayer game)": tim manusia menyusun strategi, dan Claude yang mengeksekusi.

Singkatnya, berbagi tujuan, berbagi konteks, dan terutama berbagi ruang kerja.

Seperti gambar di bawah, transisi menuju mode kerja yang lebih kompleks di sebelah kanan sedang terjadi:

Yang memungkinkan transisi ini adalah produk baru Anthropic, Claude Tag, sebuah bentuk yang memungkinkan Claude masuk ke alat kolaborasi tim seperti Slack, seperti anggota tim yang bisa di-@ dan ditugaskan.

Jadi, artikel ini bukan teori murni, melainkan arah yang didorong oleh produk Anthropic sendiri.

II. Apa itu masalah kolaborasi "multiplayer agent"?

Artikel asli mendefinisikan "multiplayer agents" sebagai: model AI yang berkolaborasi secara bersamaan dengan banyak manusia yang berbeda.

Ini memiliki kesamaan dengan agen biasa yang kita kenal, serta perbedaan kunci:

  • Kesamaan: Memiliki memori dan keterampilan (skills) sendiri.

  • Perbedaan: Memiliki kredensial (credentials) sendiri,

dan "living where work happens"—hidup di tempat di mana pekerjaan benar-benar terjadi.

Di Anthropic, tempat itu adalah alat kolaborasi tim seperti Slack.

Pengaturan "memiliki kredensial sendiri, hidup di saluran tim" ini sangat penting.

Ini berarti agen tidak lagi meminjam akun seseorang, bekerja di sesi pribadi seseorang, tetapi merupakan entitas tim dengan identitas independen: dapat dilihat oleh seluruh tim, outputnya terlihat oleh semua orang, konteks yang dibacanya adalah tingkat tim, bukan tingkat pribadi. Seperti gambar di bawah, menjadi anggota perangkat lunak kantor Anda.

Agar agen dapat "berpartisipasi secara efisien" di saluran tim, diperlukan seperangkat kemampuan dasar (seperti bentuk produk Claude Tag) + memori persisten yang dirancang khusus, identitas eksklusif, sumber informasi, dan mekanisme lainnya.

Selain itu, kemampuan teknis saja tidak cukup; untuk membuat tim manusia-mesin "sukses" diperlukan seperangkat cara kerja dan norma bersama.

Oleh karena itu, empat pengalaman selanjutnya dalam artikel semuanya berbicara tentang pengalaman merancang "norma" untuk tim AI.

III. Empat pengalaman tim agen AI

Pengalaman 1: Reformasi manajemen informasi, berikan agen konteks seluas mungkin

Anthropic percaya jangan memutuskan dokumen demi dokumen, saluran demi saluran informasi mana yang terlihat oleh agen, tetapi gunakan batas keamanan (security boundaries) yang didefinisikan dengan jelas, yang berlaku secara seragam untuk seluruh ruang kerja Slack, transkrip rapat, dan pustaka dokumen.

Artikel asli secara khusus menyebutkan siksaan sehari-hari: "Saluran ini harus publik atau pribadi? Dokumen ini bisa dibagikan kepada orang itu? Agen ini bisa melihat pesan itu?"

Di dalam batas, konteks harus terlihat oleh setiap anggota tim—baik manusia maupun AI, dan AI bahkan dapat meminta izin dokumen seperti manusia.

Keahlian trik ini terletak pada penyelesaian dua masalah sekaligus:

  1. Memperluas konteks yang dapat diperoleh agen dan manusia;
  2. Menghilangkan kelelahan keputusan akibat "berbagi satu per satu".

Imbalan dari keterbukaan akses sangat nyata, tidak ada lagi kerugian transmisi informasi, dan karena kecepatan baca agen jauh melampaui manusia, mereka dapat "routinely surface relevant work that humans would otherwise have missed" (sering kali menemukan pekerjaan relevan yang mungkin terlewatkan manusia).

Menurut penulis, ini pada dasarnya adalah pergeseran budaya organisasi dan mekanisme izin.

"Default internal terbuka" bagi banyak perusahaan adalah perubahan budaya yang memerlukan perubahan besar.

Karena Anthropic sejak awal adalah perusahaan yang sangat percaya, informasi datar, mereka tidak dapat memahami penyakit perusahaan besar, terutama di industri tradisional, di mana perbedaan informasi antar level menciptakan kesenjangan sumber daya.

Dan untuk organisasi dengan kepatuhan ketat, isolasi informasi ketat (keuangan, medis, lintas yurisdiksi), "satu atap untuk seluruh ruang kerja" mungkin tidak layak.

Yang benar-benar dapat diterapkan adalah mekanisme persetujuan yang disederhanakan di baliknya, seperti selama agen berada di grup tertentu, ia secara alami dapat membaca dokumen yang diizinkan grup tersebut, meskipun ada kontrol izin, dapat dikelola secara massal, bukan dengan memberikan dokumen terlebih dahulu, lalu mengatur kualitas.

Pengalaman 2: Setiap orang/agen memiliki peran dan alat yang jelas

Gambar dalam artikel asli sangat kuat: Tim manusia-mesin berbagi satu daftar anggota, satu set hasil, satu ruang kerja.

Di atas ini, agen memiliki pembagian kerja masing-masing:

  • Satu agen memiliki analisis data proyek tertentu;
  • Yang lain memegang dan menjalankan pedoman desain;
  • Yang ketiga bertanggung jawab untuk sintesis penelitian (research synthesis).

Saat proyek dimulai, manusia pertama-tama berbicara dengan agen, memutuskan bagaimana membagi peran, bagaimana manusia dan agen berkolaborasi.

Kemudian menghasilkan kombinasi peran dan aturan + waktu intervensi seperti gambar di bawah.

Setelah peran jelas, agen bahkan dapat "spin up" (meluncurkan) agen lain, memastikan setiap tugas spesifik diberikan kepada agen yang memiliki memori yang benar, akses yang benar.

Kuncinya adalah melengkapi alat: agen analisis data mungkin memerlukan akses BigQuery, agen QA mungkin memerlukan Playwright MCP.

Manusia memegang peran yang hanya bisa dipegang manusia, memastikan penilaian manusia digunakan pada keputusan terpenting.

Menurut penulis: Ini juga merupakan arsitektur proses kerja mekanisme penelitian sebelumnya dari Anthropic.

Menggunakan agen utama (lead agent) untuk mengoordinasikan keseluruhan, mendelegasikan tugas ke agen khusus (subagent) yang berjalan secara paralel. Mekanisme ini memang sangat praktis, indikator kualitas hampir dua kali lipat (90,2% lebih tinggi), meskipun biaya token meningkat 15 kali lipat. Namun, "multi-agen lebih kuat" bukanlah kesimpulan universal, melainkan "peningkatan pada jenis tugas tertentu dengan biaya komputasi yang signifikan".

Terutama dalam pekerjaan yang mengutamakan keluasan dan dapat diparalelkan, dan karena mekanisme verifikasi silang yang lebih kuat, akurasi informasi lebih baik.

Dan perlu desain yang cermat, dekomposisi tugas yang baik, dan isolasi peran, bukan sekadar "menumpuk beberapa agen".

Jika tidak, itu akan menjadi kesalahpahaman generasi baru seperti "produksi 18.000 jin per mu".

Banyak pandangan ini juga ada di artikel sebelumnya tentang cara menggunakan Dynamic Workflows Claude untuk penelitian mendalam.

Pengalaman 3: Tetapkan peran bintang utara, biarkan agen menyelesaikan masalah secara proaktif

Artikel asli membedakan dua jenis agen: satu hanya "menyelesaikan tugas yang ditugaskan", dan yang terpenting adalah yang secara proaktif mengusulkan proyek baru dan alur kerja baru.

Yang terakhir biasanya muncul di tim yang sudah memiliki konteks kaya, peran jelas, ditambah dengan panduan tambahan—bintang utara (north star).

Bintang utara bertanggung jawab membantu tim menilai "tugas dan alur kerja mana yang benar".

Artikel asli menekankan beberapa disiplin:

Bintang utara selalu ditetapkan oleh manusia, dan berakar pada misi dan tujuan bisnis perusahaan;

• Setelah bintang utara ditulis dengan jelas, manusia membagikannya kepada agen di tim;

• Kemudian—ini langkah kunci—manusia memilih agen mana yang harus secara proaktif mengusulkan alur kerja baru.

Dengan asumsi produk dan perusahaan yang digerakkan oleh operasi, maka peran operasi harus menjadi agen dominan, bukan digerakkan oleh produk, atau teknologi, atau keuangan.

Seperti pola rute (Classify-And-Act) dalam bagaimana menggunakan Dynamic Workflows Claude untuk penelitian mendalam, pertama agen mengklasifikasikan jenis tugas, kemudian mendistribusikan tugas ke agen khusus yang paling sesuai.

Menurut penulis, sebelumnya melihat banyak artikel Anthropic, ada yang mencerminkan apa yang mereka anggap sebagai agen dan alur kerja (workflow)?

Yang pertama "secara dinamis memimpin proses dan penggunaan alatnya sendiri, mengendalikan cara menyelesaikan tugas".

Sedangkan yang terakhir adalah sistem deterministik yang "diorkestrasi melalui jalur kode yang telah ditentukan";

Jadi untuk membuat tim AI, kita harus memberi agen bintang utara, bukan daftar tugas, dengan sadar mendorong sistem dari alur kerja ke agen.

Sebuah tim yang memiliki tujuan akan membawa kreativitas, bukan mencari-cari masalah dalam lingkup terbatas.

Tentu saja, banyak tim AI yang kita buat sekarang adalah alur kerja yang terprogram atau di-AI-kan, ini sudah dapat menyelesaikan banyak masalah; jika kita membutuhkan kreativitas, motivasi diri, kemampuan menyelesaikan masalah secara proaktif di masa depan, maka kita harus merancang tim agen semacam ini.

Pengalaman 4: Biarkan agen tumbuh seiring waktu

Data resmi di sini sangat mengejutkan saya: Dia mengatakan bahwa insinyur Anthropic telah membuat agen di tim mampu menangani 500 perbaikan bug secara mandiri—tetapi segera ditekankan: "things certainly didn't start off that way (awalnya tidak seperti itu)."

Dia menganalogikan agen seperti rekan kerja manusia baru: memerlukan beberapa putaran umpan balik untuk mengeksternalisasi pengetahuan implisit seperti "bagaimana cara terbaik menyelesaikan tugas".

Pengguna harus berulang kali menguji agen dengan berbagai tugas untuk memahami batas kemampuannya, cara mendeskripsikan tujuan dengan jelas, file skill apa yang diperlukan, prompt apa yang paling memunculkan perilaku yang diinginkan.

Artikel asli juga secara khusus mengingatkan poin yang mudah diabaikan: model akan diupgrade, tugas harus diuji ulang—prompt mungkin perlu ditulis ulang, harness yang dulu berguna mungkin malah membatasi model yang lebih pintar untuk mencari solusi kreatif.

Yang paling bernilai dalam pengalaman ini adalah tentang verifikasi (verification):

Kami menemukan bahwa agen jangka panjang terbaik, sebelum diserahkan kepada manusia, memiliki banyak cara untuk memverifikasi pekerjaan mereka sendiri.

  • Kode memiliki pengujian, tentu saja;
  • Tetapi sebagian besar pekerjaan lain juga dapat diverifikasi: dokumen teknis dapat menggunakan rubrik penilaian dan panduan gaya (style guide);
  • Ketika manusia menetapkan standar dan memastikan semua pekerjaan yang diberikan kepada agen dapat diperiksa, kualitas dapat dipertahankan, tidak menyimpang dari tujuan;
  • Selain itu, dapat membuat satu agen bekerja dan agen lain memeriksa—ini adalah "Doer-Verifier" (pelaksana-verifikator) harness agen yang sering disebut.

Artikel asli memiliki contoh lengkap: Seorang pemimpin teknik mengambil alih tim baru dengan backlog berat, dia mengajak beberapa orang + beberapa agen untuk bersama-sama memprioritaskan.

Sekelompok agen membaca semua backlog, menentukan apakah ada yang mengerjakan, memberikan skor kompleksitas untuk item yang tidak memiliki pemilik;

Kelompok lain menyaring item dengan kompleksitas rendah hingga sedang dari daftar, langsung menghasilkan perubahan kode.

Awalnya, manusia memeriksa setiap keputusan agen, dan menandai yang memerlukan intervensi manusia; kemudian, manusia "mengajar" agen untuk langsung menyerahkan keputusan semacam itu kepada manusia, memastikan bahwa keputusan dengan trade-off yang sulit selalu memiliki "human in the loop".

Dan setiap minggu, tim membuat agen menyusun laporan mingguan yang berisi "pelajaran dan kesalahan (lessons & missteps)", sehingga agen mengingat kesalahan dan menghindari pengulangan. Seiring waktu, pemimpin dapat memberikan perubahan yang semakin kompleks kepada agen, dan waktu yang dihabiskan untuk pembinaan harian semakin berkurang, seperti gambar di bawah:

Sangat mirip dengan proses membesarkan lobster yang cerdas.

Paragraf terakhir adalah wawasan yang paling saya kagumi dari seluruh artikel—ketika agen menjadi lebih mandiri, pemimpin mulai mengajar agen untuk memperlakukan "perhatian manusia" sebagai sumber daya yang langka:

Seperti mengelompokkan masalah, memungkinkan manusia menjawab sekaligus, mengulangi konteks kunci, memungkinkan manusia masuk ke kondisi dengan cepat, membatasi jumlah item yang diberikan kepada manusia sekaligus.

Beberapa bahkan mendirikan agen khusus yang satu-satunya tugasnya adalah memutuskan cara mengelompokkan secara batch, dan hanya meningkatkan komunikasi yang paling penting kepada manusia.

Yang lain memberi agen pagar pembatas "maksimal berapa banyak pekerjaan yang bisa dilakukan per hari"—sehingga manusia dapat berpartisipasi secara bermakna dan mempertahankan keterampilan penting agar tidak terabaikan.

Menurut penulis, pengalaman ini adalah bagian paling dalam tentang "hubungan manusia-mesin" dalam seluruh artikel.

  • Pertama, dalam pemikiran Anthropic: Pengawasan yang efektif bukanlah menyetujui setiap tindakan, tetapi "berada dalam posisi untuk campur tangan saat diperlukan" (being in a position to intervene when it matters).
  • Kedua, memperlakukan "perhatian manusia" secara eksplisit sebagai sumber daya langka untuk dioptimalkan adalah prinsip desain yang sangat diremehkan. Sebagian besar diskusi tentang agen berfokus pada optimalisasi "kemampuan agen", sementara hambatan efisiensi sebenarnya adalah "kapasitas kognitif manusia".
  • Ketiga, rekayasa harness dalam tim manusia-mesin harus sepenuhnya meniru cara tim yang efisien, karena beberapa kuda yang baik memang tidak memerlukan tali kekang, hanya tujuan.

IV. Era kolaborasi manusia-mesin akan memperbesar kualitas organisasi tim asli tanpa ampun

Kalimat paling jujur dan paling mudah diabaikan dalam artikel ini muncul di akhir:

Dia mengatakan bahwa keempat pengalaman di atas sebenarnya tidak baru, sudah ada sebelum munculnya AI; tim yang baik harus memiliki bintang utara yang kuat, peran yang jelas, dokumentasi yang solid, standar kualitas bersama, ruang untuk belajar dari kesalahan, semua adalah kebiasaan tim sehat yang telah kita kenal selama puluhan tahun.

Dan tim agen AI hanya membuat keterampilan dasar ini menjadi lebih penting.

Tanpa pembangunan mekanisme yang wajar, AI tidak akan secara otomatis memperkuat tim, bahkan dapat menyebabkan tekanan dan akhirnya kekacauan, seperti:

  • Tim dengan konteks yang kacau (misalnya yang dikelola dengan kesenjangan informasi), setelah menambahkan agen akan semakin kacau (semakin besar isolasi informasi, semakin menyimpang output);
  • Tim dengan peran yang kacau, agen hanya akan meniru kekacauan, menyebabkan gangguan tanggung jawab kerja satu sama lain, sumber penilaian pembuat keputusan menjadi tidak akurat.
  • Tim tanpa budaya verifikasi, kesalahan agen akan berskala lebih cepat, kecepatan kode AI sudah jauh melampaui kecepatan CR manusia.

Oleh karena itu, menurut penulis, "tim yang paling banyak mendapatkan keuntungan dari gelombang agen ini adalah tim yang paling sadar dalam menerapkan keterampilan dasar ini."

Bagi organisasi yang sedang bertaruh pada agen AI, pelajaran nyata dari artikel ini mungkin bukan "bagaimana menggunakan Claude", tetapi kembali dan mengerjakan ulang dengan serius empat hal lama: konteks, peran, tujuan, dan standar kualitas tim mereka sendiri.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar