Google mengusulkan pendekatan penilaian berkelanjutan untuk rekayasa guna menghadapi tantangan penilaian lingkungan produksi agen AI

robot
Pembuatan abstrak sedang berlangsung

Berita ME: Pesan, 4 April (UTC+8). Belakangan ini, GoogleCloudTech memposting bahwa mengandalkan obrolan manual dan penilaian subjektif (yaitu “pemeriksaan suasana hati”) untuk mengevaluasi AI agent dalam lingkungan produksi tidak dapat diandalkan, dan dapat memicu bencana. Pendapat dalam artikel tersebut menyatakan bahwa sifat generatif AI yang berbasis probabilitas membuat perubahan kecil pada prompt atau bobot model dapat menyebabkan penurunan kinerja yang signifikan. Untuk mengatasi masalah ini, artikel mengusulkan pendekatan rekayasa untuk menerapkan Continuous Evaluation (CE). Metode ini membedakan dua mode rekayasa AI: mode eksplorasi (di lab) dan mode pertahanan (di pabrik). Mode eksplorasi berfokus pada menemukan potensi model melalui sejumlah kecil contoh dan “pemeriksaan suasana hati”; sedangkan mode pertahanan menekankan stabilitas, dengan evaluasi berbasis kumpulan data, kontrol gerbang yang ketat, dan metrik otomatis untuk memastikan sistem memenuhi tujuan tingkat layanan (SLO). Artikel ini memperingatkan bahwa banyak tim cenderung bertahan jangka panjang dalam mode eksplorasi. Artikel ini juga memberi contoh sistem multi-agent terdistribusi (sistem pembuat kursus) yang dibangun berdasarkan Cloud Run dan protokol Agent2Agent, untuk menunjukkan praktik mode pertahanan yang andal dan dapat diskalakan dalam penerapan AI tingkat produksi, dengan berfokus pada prinsip pemisahan concerns dan agent khusus (seperti peneliti, juri, pembangun konten, dan koordinator). (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan