Baru saja saya menemukan sesuatu yang mengganggu saya tentang sistem ML produksi. Semua orang terlalu fokus pada metrik output — akurasi, presisi, recall — tetapi saat metrik tersebut menurun, Anda sudah dalam masalah. Masalah sebenarnya terjadi lebih awal, di lapisan input.



Ada pendekatan yang saya baca yang membalikkan semuanya. Alih-alih memantau apa yang dihasilkan model, Anda memantau apakah data input Anda masih berperilaku seperti saat pelatihan. Kedengarannya sederhana, tetapi pelaksanaannya cerdas.

Ide utamanya menggunakan tetangga terdekat untuk estimasi kepadatan yang dipasangkan dengan divergence KL. Inilah mengapa ini bekerja: Anda menetapkan baseline dari data pelatihan Anda, lalu secara terus-menerus membandingkan data masuk terhadapnya menggunakan jendela geser. Ketika divergence KL melonjak di atas ambang batas Anda, ada sesuatu yang berubah. Tidak perlu asumsi tentang distribusi data, tidak perlu mengintip ke dalam model.

Bayangkan sebuah mesin rekomendasi e-commerce yang dilatih berdasarkan perilaku sebelum pandemi. Preferensi pelanggan berubah, pola belanja berkembang, tetapi pemantauan tradisional mungkin melewatkannya selama berhari-hari. Pendekatan tetangga terdekat ini menangkapnya secara langsung — vektor fitur Anda tidak lagi cocok dengan distribusi asli, dan Anda akan diperingatkan sebelum performa benar-benar menurun.

Namun, aspek praktisnya penting. Ukuran jendela berpengaruh — terlalu kecil dan Anda mengejar noise, terlalu besar dan Anda melewatkan perubahan cepat. Begitu juga dengan kalibrasi ambang batas. Salah satu pendekatan yang solid adalah mengambil data pelatihan homogen Anda, membaginya menjadi jendela berurutan, menghitung divergence KL pasangan, lalu menggunakan persentil 95 atau 99 sebagai ambang batas.

Untuk pemilihan nilai k, akar kuadrat dari ukuran sampel Anda adalah titik awal yang masuk akal. K yang lebih tinggi membuat estimasi kepadatan kurang sensitif tetapi lebih halus. K yang lebih rendah menangkap ketidakteraturan tetapi berisiko overfitting terhadap noise.

Dalam skala besar, ini menjadi lebih mudah melalui strategi sampling, perpustakaan tetangga terdekat perkiraan seperti Annoy atau Faiss, dan pemrosesan paralel. Anda tidak perlu menghitung semuanya dari awal — cukup memperbarui statistik bergulir secara bertahap.

Keindahan pendekatan ini adalah sifatnya yang model-agnostic. Cocok digunakan baik untuk classifier sederhana maupun model yang kompleks. Anda secara efektif membangun sistem peringatan dini yang menangkap drift data sebelum model Anda menyadari ada yang salah. Itulah jenis rekayasa defensif yang menjaga sistem produksi tetap stabil.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan