Google mengusulkan pendekatan penilaian berkelanjutan untuk rekayasa guna menghadapi tantangan penilaian lingkungan produksi agen AI

robot
Pembuatan abstrak sedang berlangsung

Berita ME, 4 April (UTC+8). Baru-baru ini, GoogleCloudTech memposting bahwa bergantung pada obrolan manual dan penilaian subjektif (yaitu “pemeriksaan suasana hati”) untuk mengevaluasi agen AI dalam lingkungan produksi tidak dapat diandalkan, serta dapat memicu bencana. Pandangan dalam artikel ini berpendapat bahwa sifat generatif AI yang berbasis probabilitas membuat perubahan kecil pada prompt atau bobot model pun dapat menyebabkan penurunan performa yang signifikan. Untuk mengatasi masalah ini, artikel tersebut mengusulkan pendekatan teknik penerapan evaluasi berkelanjutan (CE). Metode ini membedakan dua mode dalam rekayasa AI: mode eksplorasi (di laboratorium) dan mode pertahanan (di pabrik). Mode eksplorasi berfokus pada menemukan potensi model melalui sedikit contoh dan pemeriksaan suasana hati; mode pertahanan berfokus pada stabilitas, melalui evaluasi berbasis kumpulan data, kontrol gerbang yang ketat, dan metrik otomatis untuk memastikan sistem memenuhi target tingkat layanan (SLO). Artikel ini memperingatkan bahwa banyak tim akan terus lama berada dalam mode eksplorasi. Artikel tersebut juga memberikan contoh sistem multi-agen terdistribusi (sistem pencipta kursus), yang dibangun berdasarkan Cloud Run dan protokol Agent2Agent, untuk menunjukkan praktik mode pertahanan dalam penerapan AI tingkat produksi yang andal dan dapat diskalakan dengan berfokus pada prinsip pemisahan perhatian dan agen khusus (seperti peneliti, hakim, pembangun konten, koordinator). (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan