Agen AI Perusahaan Membutuhkan Uji Ketahanan, Bukan Pemasaran Penjualan

SleepTrader

2026-04-02 05:42:09

Abhishek Saxena, Kepala Strategi dan Pertumbuhan, Sentient.

FinTech bergerak cepat. Berita ada di mana-mana, kejelasan tidak.

FinTech Weekly menyajikan kisah-kisah dan acara-acara kunci di satu tempat.

Klik Di Sini untuk Berlangganan buletin FinTech Weekly

Dibaca oleh para eksekutif di JP Morgan, Coinbase, BlackRock, Klarna, dan lainnya.

AI Perusahaan menghadapi masalah kepercayaan yang tidak bisa diselesaikan oleh upaya pemasaran apa pun. Perusahaan mulai menerapkan agen otonom ke lingkungan produksi, di mana satu keputusan yang buruk dapat memicu pelanggaran kepatuhan, kegagalan pembayaran, kesalahan perdagangan, kerugian finansial, atau krisis reputasi. Namun, standar industri untuk menilai apakah sebuah agen siap untuk produksi masih—secara efektif—sebuah demo yang tampak mengesankan di panggung.

Peluncuran NemoClaw milik Nvidia minggu ini menandakan seberapa cepat agen otonom bergerak dari eksperimen menuju alur kerja perusahaan. Platform ini menambahkan kontrol keamanan dan privasi yang penting, termasuk sandboxing dan pagar pengaman kebijakan. Tetapi penerapan yang aman tidak sama dengan kesiapan produksi. Pertanyaan yang lebih sulit adalah apakah sistem-sistem ini telah diuji untuk beroperasi dengan andal di tengah ambiguitas, kasus tepi, dan tekanan regulasi.

Membangun agen yang dapat menyelesaikan tugas dalam lingkungan yang terkontrol relatif mudah. Membangun agen yang dapat menangani ambiguitas, pulih dari masukan yang tidak terduga, menjaga konsistensi di ribuan interaksi yang berlangsung bersamaan, dan melakukan semuanya tanpa melanggar batasan regulasi adalah masalah rekayasa yang jauh berbeda.

Perbedaan itulah yang membuat banyak penerapan di tingkat perusahaan mengalami masalah. Kesenjangan antara performa demo dan keandalan produksi lebih lebar daripada yang disadari kebanyakan tim.

Sebuah agen yang menangani pertanyaan dukungan pelanggan dengan sempurna saat pengujian mungkin akan mengarang kebijakan pengembalian dana yang tidak ada ketika dihadapkan pada kasus tepi yang belum pernah ditemuinya. Sebuah agen yang mengelola alur kerja finansial mungkin berperforma sempurna pada data historis, tetapi membuat keputusan yang bencana ketika kondisi pasar bergeser di luar distribusi pelatihannya. Agen logistik yang mengoordinasikan rantai pasokan bisa berhasil dalam simulasi, tetapi kesulitan ketika penundaan di dunia nyata dan sinyal yang saling bertentangan mulai saling memperkuat.

Siapa pun yang pernah menjalankan agen melalui lingkungan pengujian yang bersifat adversarial akan dengan cepat mengenali pola-pola ini. Sistem-sistem itu bekerja—hingga mereka menghadapi jenis ambiguitas dan tekanan yang membentuk operasi nyata.

Inilah sebabnya mengapa fokus industri saat ini untuk membangun lebih banyak kerangka kerja agen melewatkan bagian penting dari teka-teki. Bottleneck yang sesungguhnya bukanlah seberapa cepat perusahaan dapat membuat agen. Melainkan seberapa yakin mereka dapat mengevaluasinya sebelum agen-agen tersebut diberi tanggung jawab nyata.

Yang dibutuhkan AI perusahaan adalah infrastruktur stress-testing yang ketat dan sistematis, yang dirancang khusus untuk sistem otonom. Artinya secara sengaja memasukkan jenis masukan yang membuat agen gagal di produksi. Artinya mengevaluasi bagaimana agen berperilaku di bawah ketidakpastian, informasi yang saling bertentangan, dan kasus tepi yang tidak muncul di kumpulan data benchmark yang bersih. Dan artinya melakukan evaluasi berkelanjutan, bukan sekadar satu kali pengujian sebelum peluncuran.

Pendekatan open-source NemoClaw adalah langkah ke arah yang benar karena memberi pengembang visibilitas tentang bagaimana agen beroperasi. Anda tidak bisa menguji kotak hitam dengan benar. Tetapi visibilitas saja tidak cukup. Infrastruktur pengujiannya sendiri perlu berkembang seiring dengan sistem yang dievaluasinya.

Pengembangan agen harus mengasumsikan bahwa mode kegagalan itu pasti terjadi dan harus dimunculkan sejak awal. Tujuannya bukan untuk membuktikan bahwa sebuah agen bekerja sekali, melainkan untuk memahami bagaimana perilakunya saat kondisi menjadi tidak dapat diprediksi. Pola pikir ini mengubah cara agen dievaluasi, bagaimana pagar pengaman dirancang, dan bagaimana sistem disiapkan untuk penerapan di lingkungan berisiko tinggi.

Risikonya hanya akan meningkat saat agen berpindah dari tugas-tugas yang terisolasi ke alur kerja end-to-end. Perusahaan sudah mulai mengeksplorasi agen yang menegosiasikan kontrak, mengeksekusi transaksi finansial, mengoordinasikan rantai pasokan, dan mengelola proses operasional yang kompleks. Ketika sistem-sistem ini beroperasi di banyak titik keputusan, dampak dari satu kesalahan dapat dengan cepat merambat.

Agen dukungan pelanggan yang gagal kehilangan tiket. Agen finansial yang gagal dapat kehilangan modal. Agen operasional yang gagal dapat menunda seluruh jalur produksi.
Perusahaan yang pada akhirnya berhasil dengan AI perusahaan tidak akan menjadi yang menerapkan agen lebih dulu. Mereka akan menjadi yang menerapkan agen yang benar-benar bisa dipercaya.

Kepercayaan bukanlah fitur yang Anda tambahkan di akhir pengembangan. Kepercayaan adalah disiplin rekayasa—yang dimulai dari cara sistem diuji, bagaimana perilakunya dievaluasi di bawah tekanan, dan bagaimana mode kegagalannya dipahami jauh sebelum sistem tersebut pernah menyentuh beban kerja produksi.

Nvidia memberikan alat yang kuat kepada perusahaan untuk membangun agen otonom. Pertanyaan yang lebih sulit—dan yang akan menentukan apakah sistem-sistem ini berhasil di dunia nyata—adalah apakah organisasi berinvestasi secara setara dalam infrastruktur yang diperlukan untuk membuktikan bahwa agen-agen tersebut siap.

Tentang penulis

Abhishek Saxena adalah Kepala Strategi dan Pertumbuhan di Sentient, sebuah platform AI open-source yang membangun infrastruktur untuk agen otonom yang dapat dipercaya. Sebelumnya, Abhishek pernah memegang peran di Polygon Technology, Apple, dan InMobi, serta memiliki gelar MBA dari Harvard Business School.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.