Di balik 90% kegagalan proyek AI: utang kata kunci, utang pencarian, dan utang penilaian sedang membebani penerapan perusahaan

Tahun 2025, 42% perusahaan menghentikan beberapa proyek AI, jauh melampaui 17% tahun sebelumnya. Masalahnya bukan karena model yang tidak cukup kuat, melainkan karena adanya jenis utang teknologi baru yang secara diam-diam terkumpul dalam infrastruktur AI perusahaan, yaitu utang prompt, utang retrieval, dan utang evaluasi.
(Latar belakang: Apa itu Harness Engineering? Mengurai 7 modul rekayasa utama dalam penerapan AI Agent (Rekayasa Penguasaan AI))
(Tambahan latar belakang: GPT-5.5 Instant dibuka untuk semua pengguna, OpenAI mengajarkan cara menulis Prompt yang lebih cerdas dan efisien)

Daftar isi artikel

Toggle

  • Tiga jenis utang baru yang lebih sulit dideteksi daripada Bug
  • Celah pengawasan yang tidak terlihat
  • Solusi tidak di model, tetapi dalam desain sistem

42%, ini adalah persentase perusahaan yang menghentikan proyek AI mereka pada tahun 2025, berlipat satu setengah kali lipat dari tahun sebelumnya. Data dari S&P Global Market Intelligence menunjukkan bahwa kegagalan AI bukanlah fenomena kebetulan, melainkan masalah sistemik. Studi MIT pada tahun yang sama juga menunjukkan bahwa 95% dari pilot AI tidak pernah benar-benar masuk ke lingkungan produksi atau menghasilkan nilai bisnis yang dapat diukur.

Kegagalan ini biasanya disalahkan pada kemampuan model yang kurang, kualitas data yang buruk, atau ROI yang sulit dijelaskan. Tetapi Vikram dari Cota Capital berpendapat bahwa penyebab sebenarnya lebih tersembunyi: sebuah bentuk utang teknologi baru sedang diam-diam terkumpul di lapisan prompt, ketergantungan model, dan lapisan evaluasi dalam sistem AI, berbeda sama sekali dari utang kode tradisional, tetapi sama-sama mematikan.

Tiga jenis utang baru yang lebih sulit dideteksi daripada Bug

Utang teknologi tradisional ada di dalam basis kode, Bug bisa direproduksi, diuji, dan diperbaiki. Utang AI memiliki karakteristik yang sama sekali berbeda: tersebar secara terdistribusi, tersebar di lapisan prompt, API model, pipeline data, dan infrastruktur.

Utang ini bersifat intermiten, karena sistem AI secara esensial bersifat probabilistik, input yang sama tidak menjamin output yang sama; dan hampir tidak terlihat, karena sistem "terlihat" berjalan normal sampai suatu saat kritis menyebabkan keruntuhan total.

Utang Prompt (Prompt Debt) adalah yang paling jelas dari ketiganya. Tidak ada catatan file untuk penyesuaian sementara, tidak ada kontrol versi untuk perubahan prompt, dan "prompt stuffing" yang memaksa memasukkan banyak informasi latar belakang yang tidak relevan ke dalam prompt, berusaha agar model memahami lebih banyak.

Hasilnya, prompt menjadi semacam kode tidak resmi tanpa tipe, tanpa pengujian, tanpa manajemen versi. Setiap penyesuaian kecil dilakukan dalam sistem yang tidak transparan, dan seiring waktu, kerentanannya meningkat secara eksponensial.

Utang Ketergantungan Model (Model Dependency Debt) berasal dari ketergantungan tinggi perusahaan terhadap API model eksternal. Logika aplikasi dibangun di atas panggilan ke model eksternal, tetapi pembaruan model ini tidak berada di bawah kendali perusahaan.

Ketika penyedia model diam-diam memperbarui versinya, prompt yang disesuaikan secara hati-hati untuk versi lama bisa langsung gagal, atau perilaku output bisa mengalami drift yang sulit diprediksi. Reproduksibilitas pun hilang.

Utang Retrieval (Retrieval Debt) muncul dalam arsitektur RAG yang digunakan oleh sebagian besar perusahaan untuk penerapan AI. Masalahnya adalah, gudang data sering penuh dengan data yang berantakan, file duplikat, dan informasi yang sudah usang. Oleh karena itu, jawaban yang dikembalikan AI secara teknis benar, tetapi sudah tidak relevan lagi. Ini lebih sulit dideteksi daripada halusinasi, karena tampak sangat masuk akal dan bahkan bisa lolos review oleh penguji umum.

Celah pengawasan yang tidak terlihat

Utang Evaluasi (Evaluation Debt) adalah salah satu dari empat utang AI baru yang paling sering diremehkan. Pengujian standar AI saat ini sebagian besar berfokus pada hasil evaluasi dalam ruang lingkup sempit dan waktu tertentu, tidak mampu mencerminkan performa nyata setelah deployment. Sebagian besar perusahaan kekurangan standar pengujian yang konsisten, dataset benchmark, dan mekanisme monitoring real-time untuk model yang sudah diterapkan.

Dibandingkan dengan proses CI/CD (Continuous Integration/Continuous Delivery) yang sudah matang dalam pengembangan perangkat lunak tradisional, bidang deployment AI hingga saat ini belum memiliki mekanisme "integrasi prompt" yang setara.

Secara sederhana: insinyur menggabungkan kode, ada pengujian otomatis yang memberi tahu di mana yang rusak; tetapi setelah prompt diubah, tidak ada sistem yang memberi peringatan secara langsung. Akibatnya, CIO dan CTO kekurangan visibilitas terhadap performa nyata model, dan tidak bisa melacak apakah performa tersebut memburuk.

Keempat utang baru ini menumpuk di atas utang kode tradisional, mempercepat akumulasi secara kompleks. Lebih parah lagi, kepemilikan sistem AI bersifat tersebar: tim rekayasa, produk, data, dan bisnis masing-masing mengelola bagian berbeda dari sistem. Jika terjadi kesalahan, tanggung jawab sering kali tidak jelas.

Solusi tidak di model, tetapi dalam desain sistem

Model yang lebih kuat tidak akan menyelesaikan masalah ini. Argumen Vikram langsung: tingkat kegagalan yang tinggi tidak terkait dengan akurasi model, tetapi berasal dari desain sistem, kontrol integrasi, dan budaya organisasi yang kurang.

Secara spesifik, prompt harus diperlakukan seperti kode, dimasukkan ke dalam kontrol versi, dilengkapi dokumentasi, dan dilakukan pengujian ketat terhadap semua konfigurasi sebelum dan sesudah deployment.

Mekanisme evaluasi harus terintegrasi ke seluruh tumpukan infrastruktur AI, membangun pipeline evaluasi berkelanjutan, mencakup indikator teknis dan bisnis, serta mengintegrasikan sistem observabilitas AI untuk memantau kualitas output, tingkat kegagalan, drift model, dan drift data.

Selain itu, semua hasil AI harus disertai penjelasan yang dapat dipahami, sumber data, model yang digunakan, langkah-langkah eksekusi harus jelas dan dapat diaudit, serta mampu memperbaiki dengan cepat saat terjadi kesalahan sistemik.

Ini membutuhkan investasi seperti yang dilakukan perusahaan dalam penguatan keamanan siber atau modernisasi cloud, dengan menetapkan rencana penghapusan utang AI yang jelas dan anggaran khusus, dipimpin langsung oleh eksekutif tingkat CXO.

Setelah membaca semua ini, Anda pasti mengerti: 95% kegagalan mungkin bukan karena AI yang tidak cukup pintar. Melainkan karena cara membangun sistem AI yang masih berperilaku seperti memanggil API kotak hitam, bukan sebagai sistem kompleks yang harus di-engineer secara serius. Utang teknologi tidak pernah hilang begitu saja, melainkan akan terbayar dengan bunga yang lebih tinggi di masa depan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar