Agen AI Perusahaan Membutuhkan Uji Ketahanan, Bukan Pemasaran Penjualan

SleepTrader

2026-03-30 04:20:01

Abhishek Saxena, Kepala Strategi dan Pertumbuhan, Sentient.

FinTech bergerak cepat. Berita ada di mana-mana, kejelasan tidak.

FinTech Weekly menyampaikan kisah-kisah utama dan acara-acara penting dalam satu tempat.

Klik Di Sini untuk Berlangganan Newsletter FinTech Weekly

Dibaca oleh para eksekutif di JP Morgan, Coinbase, BlackRock, Klarna, dan lainnya.

AI perusahaan menghadapi masalah kepercayaan yang tidak bisa diatasi oleh pemasaran apa pun. Perusahaan mulai menerapkan agen otonom ke lingkungan produksi, tempat satu keputusan buruk dapat memicu pelanggaran kepatuhan, kegagalan pembayaran, kesalahan perdagangan, kerugian finansial, atau krisis reputasi. Namun, standar industri untuk menilai apakah sebuah agen siap untuk produksi masih—secara efektif—sebuah demo yang terlihat mengesankan di panggung.

Peluncuran NemoClaw milik Nvidia minggu ini menandakan seberapa cepat agen otonom bergerak dari eksperimen ke alur kerja perusahaan. Platform ini menambahkan kontrol penting untuk keamanan dan privasi, termasuk sandboxing dan pagar kebijakan. Namun, penerapan yang aman tidak sama dengan kesiapan produksi. Pertanyaan yang lebih sulit adalah apakah sistem-sistem ini telah diuji untuk beroperasi dengan andal di bawah ambiguitas, kasus-kasus tepi, dan tekanan regulatori.

Membangun agen yang dapat menyelesaikan tugas dalam lingkungan terkontrol relatif mudah. Membangun agen yang dapat menangani ambiguitas, pulih dari input yang tidak terduga, menjaga konsistensi di ribuan interaksi bersamaan, dan melakukan semuanya tanpa melanggar batasan regulasi adalah masalah rekayasa yang sangat berbeda.

Perbedaan itulah yang membuat banyak penerapan perusahaan mengalami masalah. Kesenjangan antara performa demo dan keandalan produksi lebih lebar daripada yang disangka kebanyakan tim.

Sebuah agen yang menangani pertanyaan dukungan pelanggan dengan sempurna saat pengujian bisa mengarang kebijakan pengembalian dana yang tidak ada ketika dihadapkan pada kasus tepi yang belum pernah dilihatnya. Agen yang mengelola alur kerja finansial mungkin bekerja dengan sempurna pada data historis, tetapi mengambil keputusan yang bencana ketika kondisi pasar bergeser di luar distribusi pelatihannya. Agen logistik yang mengoordinasikan rantai pasok mungkin berhasil dalam simulasi, tetapi kesulitan ketika keterlambatan dunia nyata dan sinyal-sinyal yang saling bertentangan mulai saling menguatkan.

Siapa pun yang telah menjalankan agen melalui lingkungan pengujian adversarial akan mengenali pola-pola ini dengan cepat. Sistem bekerja—sampai mereka menghadapi jenis ambiguitas dan tekanan yang menentukan operasi nyata.

Inilah sebabnya fokus industri saat ini pada membangun lebih banyak kerangka agen kehilangan bagian penting dari teka-teki. Bottleneck yang sebenarnya bukan seberapa cepat perusahaan dapat membuat agen. Melainkan seberapa yakin mereka dapat mengevaluasinya sebelum agen-agen tersebut diberi tanggung jawab nyata.

Yang dibutuhkan AI perusahaan adalah infrastruktur stress-testing yang ketat dan sistematis, yang dirancang khusus untuk sistem otonom. Itu berarti sengaja memperkenalkan jenis input yang mematahkan agen dalam produksi. Itu berarti menilai bagaimana agen berperilaku di bawah ketidakpastian, informasi yang saling bertentangan, dan kasus-kasus tepi yang tidak muncul dalam kumpulan data benchmark yang rapi. Dan itu berarti evaluasi berkelanjutan, bukan uji sekali jalan sebelum peluncuran.

Pendekatan open-source NemoClaw adalah langkah ke arah yang benar karena memberi para pengembang visibilitas tentang bagaimana agen beroperasi. Anda tidak bisa menguji black box dengan benar. Tetapi visibilitas saja tidak cukup. Infrastruktur pengujian itu sendiri perlu berkembang seiring dengan sistem yang dievaluasinya.

Pengembangan agen harus mengasumsikan bahwa mode kegagalan itu tak terelakkan dan harus dimunculkan sejak awal. Tujuannya bukan membuktikan bahwa sebuah agen bekerja sekali, tetapi memahami bagaimana ia berperilaku ketika kondisi menjadi tidak terduga. Pola pikir ini mengubah cara agen dievaluasi, bagaimana pagar pengaman dirancang, dan bagaimana sistem disiapkan untuk penerapan di lingkungan yang berisiko tinggi.

Taruhannya hanya akan meningkat ketika agen berpindah dari tugas-tugas terisolasi ke alur kerja end-to-end. Perusahaan sudah mulai mengeksplorasi agen yang bernegosiasi kontrak, mengeksekusi transaksi keuangan, mengoordinasikan rantai pasok, dan mengelola proses operasional yang kompleks. Ketika sistem-sistem ini beroperasi di banyak titik pengambilan keputusan, dampak dari satu kesalahan dapat dengan cepat berantai.

Sebuah agen dukungan pelanggan yang gagal akan kehilangan tiket. Agen keuangan yang gagal dapat kehilangan modal. Agen operasional yang gagal dapat menunda seluruh jalur produksi.
Perusahaan-perusahaan yang pada akhirnya berhasil dengan AI perusahaan tidak akan menjadi yang menerapkan agen terlebih dahulu. Mereka akan menjadi yang menerapkan agen yang benar-benar bisa dipercaya.

Kepercayaan bukan fitur yang Anda tambahkan di akhir pengembangan. Kepercayaan adalah disiplin rekayasa—yang dimulai dari bagaimana sistem diuji, bagaimana perilaku mereka dievaluasi di bawah tekanan, dan bagaimana mode kegagalan mereka dipahami jauh sebelum mereka menyentuh beban kerja produksi.

Nvidia sedang memberikan kepada perusahaan alat-alat yang kuat untuk membangun agen otonom. Pertanyaan yang lebih sulit—dan yang akan menentukan apakah sistem-sistem ini berhasil di dunia nyata—adalah apakah organisasi berinvestasi secara setara pada infrastruktur yang diperlukan untuk membuktikan bahwa agen-agen tersebut siap.

Tentang penulis

Abhishek Saxena adalah Kepala Strategi dan Pertumbuhan di Sentient, sebuah platform AI open-source yang membangun infrastruktur untuk agen otonom yang tepercaya. Sebelumnya, Abhishek memegang peran di Polygon Technology, Apple, dan InMobi, serta memiliki gelar MBA dari Harvard Business School.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka