Agen AI Perusahaan Membutuhkan Uji Ketahanan, Bukan Pemasaran Penjualan

Abhishek Saxena, Kepala Strategi dan Pertumbuhan, Sentient.


FinTech bergerak cepat. Berita ada di mana-mana, kejelasan tidak.

FinTech Weekly menghadirkan kisah-kisah dan acara-acara kunci dalam satu tempat.

Klik Di Sini untuk Berlangganan Newsletter FinTech Weekly

Dibaca oleh para eksekutif di JP Morgan, Coinbase, BlackRock, Klarna, dan lainnya.


Kecerdasan Buatan perusahaan menghadapi masalah kepercayaan yang tidak bisa diatasi oleh upaya pemasaran apa pun. Perusahaan mulai menerapkan agen otonom ke lingkungan produksi, tempat satu keputusan yang buruk dapat memicu pelanggaran kepatuhan, kegagalan pembayaran, kesalahan perdagangan, kerugian finansial, atau krisis reputasi. Namun, standar industri untuk menilai apakah sebuah agen siap untuk produksi masih, secara efektif, sebuah demo yang terlihat mengesankan di panggung.

Peluncuran NemoClaw milik Nvidia minggu ini menandakan seberapa cepat agen otonom bergerak dari eksperimen menuju alur kerja perusahaan. Platform ini menambahkan kontrol keamanan dan privasi yang penting, termasuk sandboxing dan pagar kebijakan. Namun, penerapan yang aman tidak sama dengan kesiapan produksi. Pertanyaan yang lebih sulit adalah apakah sistem-sistem ini telah diuji untuk beroperasi secara andal di bawah ambiguitas, kasus tepi, dan tekanan regulasi.

Membangun agen yang dapat menyelesaikan tugas dalam lingkungan yang terkendali relatif mudah. Membangun agen yang mampu menangani ambiguitas, pulih dari masukan yang tidak terduga, menjaga konsistensi di ribuan interaksi yang berjalan bersamaan, dan melakukan semua itu tanpa melanggar batasan regulasi adalah masalah rekayasa yang sangat berbeda.

Perbedaan itulah yang membuat banyak penerapan perusahaan mengalami kesulitan. Kesenjangan antara performa demo dan keandalan produksi lebih lebar daripada yang diperkirakan kebanyakan tim.

Sebuah agen yang menangani pertanyaan dukungan pelanggan dengan sempurna saat pengujian mungkin akan mengarang kebijakan pengembalian dana yang tidak ada ketika dihadapkan pada kasus tepi yang belum pernah dilihatnya. Agen yang mengelola alur kerja keuangan mungkin berjalan sempurna pada data historis tetapi membuat keputusan bencana ketika kondisi pasar bergeser di luar distribusi pelatihannya. Agen logistik yang mengoordinasikan rantai pasok mungkin berhasil dalam simulasi tetapi kesulitan ketika penundaan dunia nyata dan sinyal yang saling bertentangan mulai saling memperkuat.

Siapa pun yang telah menjalankan agen melalui lingkungan pengujian yang bersifat adversarial akan mengenali pola-pola ini dengan cepat. Sistem-sistem itu bekerja—sampai mereka menghadapi jenis ambiguitas dan tekanan yang mendefinisikan operasi nyata.

Inilah mengapa fokus industri saat ini untuk membangun lebih banyak kerangka agen justru melewatkan bagian penting dari teka-teki. Bottleneck yang sesungguhnya bukan seberapa cepat perusahaan dapat membuat agen. Melainkan seberapa yakin mereka dapat menilai agen-agen tersebut sebelum agen-agen itu diberi tanggung jawab nyata.

Yang dibutuhkan kecerdasan buatan perusahaan adalah infrastruktur stress-testing yang ketat dan sistematis yang dirancang khusus untuk sistem otonom. Itu berarti secara sengaja memperkenalkan jenis masukan yang mematahkan agen dalam produksi. Itu berarti mengevaluasi bagaimana agen berperilaku di bawah ketidakpastian, informasi yang saling bertentangan, dan kasus tepi yang tidak muncul dalam kumpulan data benchmark yang rapi. Dan itu berarti evaluasi berkelanjutan, bukan sekadar satu kali pengujian sebelum peluncuran.

Pendekatan open-source NemoClaw adalah langkah yang tepat karena memberi visibilitas kepada pengembang tentang bagaimana agen beroperasi. Anda tidak bisa benar-benar menguji black box dengan benar. Tapi visibilitas saja tidak cukup. Infrastruktur pengujian itu sendiri perlu berkembang seiring dengan sistem yang dievaluasinya.

Pengembangan agen harus mengasumsikan bahwa mode kegagalan itu tidak terhindarkan dan harus dimunculkan sejak awal. Tujuannya bukan membuktikan bahwa sebuah agen bekerja sekali saja, melainkan memahami bagaimana perilakunya ketika kondisi menjadi tidak dapat diprediksi. Pola pikir ini mengubah cara agen dievaluasi, bagaimana pagar pembatas dirancang, dan bagaimana sistem dipersiapkan untuk penerapan di lingkungan yang berisiko tinggi.

Taruhannya hanya akan meningkat saat agen berpindah dari tugas-tugas terisolasi ke alur kerja end-to-end. Perusahaan sudah mulai menjelajahi agen yang menegosiasikan kontrak, mengeksekusi transaksi keuangan, mengoordinasikan rantai pasok, dan mengelola proses operasional yang kompleks. Ketika sistem-sistem ini beroperasi di banyak titik keputusan, dampak dari satu kesalahan dapat dengan cepat menyebar.

Sebuah agen dukungan pelanggan yang gagal akan kehilangan tiket. Sebuah agen keuangan yang gagal dapat kehilangan modal. Sebuah agen operasional yang gagal dapat menunda seluruh jalur produksi.
Perusahaan yang pada akhirnya berhasil dengan kecerdasan buatan perusahaan tidak akan menjadi yang men-deploy agen pertama. Mereka akan menjadi yang men-deploy agen yang benar-benar bisa dipercaya.

Kepercayaan bukan fitur yang Anda tambahkan di akhir proses pengembangan. Kepercayaan adalah disiplin rekayasa—yang dimulai dari bagaimana sistem diuji, bagaimana perilakunya dievaluasi di bawah tekanan, dan bagaimana mode kegagalannya dipahami jauh sebelum sistem tersebut menyentuh beban kerja produksi.

Nvidia sedang memberi perusahaan alat-alat yang kuat untuk membangun agen otonom. Pertanyaan yang lebih sulit—dan yang akan menentukan apakah sistem-sistem ini berhasil di dunia nyata—adalah apakah organisasi berinvestasi secara setara pada infrastruktur yang diperlukan untuk membuktikan bahwa agen-agen tersebut siap.


Tentang penulis

Abhishek Saxena adalah Kepala Strategi dan Pertumbuhan di Sentient, sebuah platform AI open-source yang membangun infrastruktur untuk agen otonom yang dapat dipercaya. Sebelumnya, Abhishek memegang peran di Polygon Technology, Apple, dan InMobi, dan memperoleh gelar MBA dari Harvard Business School.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan