Agen AI Perusahaan Membutuhkan Uji Stres, Bukan Presentasi Penjualan

SleepTrader

2026-03-20 20:01:47

Abhishek Saxena, Kepala Strategi dan Pertumbuhan, Sentient.

FinTech bergerak cepat. Berita ada di mana-mana, kejelasan tidak.

FinTech Weekly menyampaikan cerita dan peristiwa utama dalam satu tempat.

Klik di sini untuk Berlangganan Newsletter FinTech Weekly

Dibaca oleh eksekutif di JP Morgan, Coinbase, BlackRock, Klarna, dan lainnya.

AI perusahaan memiliki masalah kepercayaan yang tidak bisa diselesaikan hanya dengan pemasaran. Perusahaan mulai menerapkan agen otonom ke lingkungan produksi di mana satu keputusan buruk dapat memicu pelanggaran kepatuhan, pembayaran gagal, kesalahan perdagangan, kerugian finansial, atau krisis reputasi. Namun standar industri untuk menilai kesiapan agen untuk produksi masih, secara efektif, berupa demo yang terlihat mengesankan di panggung.

Peluncuran Nvidia’s NemoClaw minggu ini menunjukkan seberapa cepat agen otonom bergerak dari eksperimen ke alur kerja perusahaan. Platform ini menambahkan kontrol keamanan dan privasi penting, termasuk sandboxing dan pengaturan kebijakan. Tetapi penerapan yang aman tidak sama dengan kesiapan produksi. Pertanyaan yang lebih sulit adalah apakah sistem ini telah diuji untuk beroperasi secara andal di bawah ketidakpastian, kasus ekstrem, dan tekanan regulasi.

Membangun agen yang dapat menyelesaikan tugas di lingkungan terkendali relatif mudah. Membangun agen yang dapat menangani ketidakpastian, pulih dari input yang tidak terduga, menjaga konsistensi di ribuan interaksi simultan, dan melakukan semua ini tanpa melanggar batasan regulasi adalah masalah rekayasa yang sangat berbeda.

Perbedaan ini adalah di mana banyak penerapan perusahaan mengalami kendala. Kesenjangan antara performa demo dan keandalan produksi lebih lebar daripada yang diperkirakan banyak tim.

Agen yang menangani pertanyaan dukungan pelanggan dengan sempurna saat pengujian mungkin berhalusinasi tentang kebijakan pengembalian dana yang tidak ada saat menghadapi kasus ekstrem yang belum pernah dilihat. Agen yang mengelola alur kerja keuangan mungkin tampil sempurna berdasarkan data historis tetapi membuat keputusan yang katastrofik saat kondisi pasar menyimpang dari distribusi pelatihannya. Agen logistik yang mengoordinasikan rantai pasokan mungkin berhasil dalam simulasi tetapi kesulitan saat penundaan dunia nyata dan sinyal yang bertentangan mulai bertambah.

Siapa pun yang pernah menjalankan agen melalui lingkungan pengujian adversarial akan mengenali pola-pola ini dengan cepat. Sistem bekerja—sampai mereka menghadapi ketidakpastian dan tekanan yang mendefinisikan operasi nyata.

Inilah sebabnya fokus industri saat ini pada pembangunan kerangka kerja agen yang lebih banyak melewatkan bagian penting dari puzzle. Kendala utama bukanlah seberapa cepat perusahaan dapat membuat agen. Tetapi seberapa percaya diri mereka dapat mengevaluasi agen tersebut sebelum agen tersebut diberikan tanggung jawab nyata.

Apa yang dibutuhkan AI perusahaan adalah infrastruktur pengujian stres yang ketat dan sistematis yang dirancang khusus untuk sistem otonom. Itu berarti secara sengaja memperkenalkan jenis input yang dapat merusak agen di produksi. Itu berarti mengevaluasi bagaimana agen berperilaku di bawah ketidakpastian, informasi yang bertentangan, dan kasus ekstrem yang tidak muncul di dataset benchmark bersih. Dan itu berarti evaluasi berkelanjutan, bukan hanya pengujian satu kali sebelum peluncuran.

Pendekatan open-source NemoClaw adalah langkah ke arah yang benar karena memberi pengembang visibilitas tentang bagaimana agen beroperasi. Anda tidak dapat menguji kotak hitam dengan benar. Tetapi visibilitas saja tidak cukup. Infrastruktur pengujian itu sendiri perlu berkembang seiring dengan sistem yang dievaluasi.

Pengembangan agen harus menganggap bahwa mode kegagalan adalah hal yang tak terelakkan dan harus dideteksi sejak dini. Tujuannya bukan untuk membuktikan bahwa agen bekerja sekali, tetapi untuk memahami bagaimana perilakunya saat kondisi menjadi tidak dapat diprediksi. Pola pikir ini mengubah cara agen dievaluasi, bagaimana guardrails dirancang, dan bagaimana sistem dipersiapkan untuk penerapan di lingkungan berisiko tinggi.

Taruhannya akan semakin tinggi saat agen bergerak dari tugas terisolasi ke alur kerja end-to-end. Perusahaan sudah mengeksplorasi agen yang menegosiasikan kontrak, mengeksekusi transaksi keuangan, mengoordinasikan rantai pasokan, dan mengelola proses operasional yang kompleks. Ketika sistem ini beroperasi di berbagai titik pengambilan keputusan, dampak satu kesalahan dapat dengan cepat menimbulkan efek berantai.

Agen dukungan pelanggan yang gagal kehilangan tiket. Agen keuangan yang gagal bisa kehilangan modal. Agen operasional yang gagal bisa menunda seluruh jalur produksi.
Perusahaan yang akhirnya sukses dengan AI perusahaan bukanlah yang pertama kali menerapkan agen. Mereka adalah yang menerapkan agen yang benar-benar bisa dipercaya.

Kepercayaan bukanlah fitur yang ditambahkan di akhir pengembangan. Itu adalah disiplin rekayasa—dimulai dari bagaimana sistem diuji, bagaimana perilaku mereka dievaluasi di bawah tekanan, dan bagaimana mode kegagalan mereka dipahami jauh sebelum mereka menyentuh beban kerja produksi.

Nvidia memberi perusahaan alat yang kuat untuk membangun agen otonom. Pertanyaan yang lebih sulit—dan yang akan menentukan keberhasilan sistem ini di dunia nyata—adalah apakah organisasi berinvestasi secara setara dalam infrastruktur yang diperlukan untuk membuktikan kesiapan agen tersebut.

Tentang penulis

Abhishek Saxena adalah Kepala Strategi dan Pertumbuhan di Sentient, platform AI sumber terbuka yang membangun infrastruktur untuk agen otonom yang dapat dipercaya. Sebelumnya, Abhishek pernah menjabat di Polygon Technology, Apple, dan InMobi, dan memegang gelar MBA dari Harvard Business School.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.