LangSmith meluncurkan lebih dari 30 template penilaian, pemeriksaan kualitas agen AI tidak perlu lagi dibuat dari awal

ME News Berita, 17 April (UTC+8), menurut pemantauan Beating dari Dongcha, alat observabilitas LangSmith dari platform pengembangan agen AI meluncurkan dua pembaruan: perpustakaan template evaluator dan evaluator yang dapat digunakan kembali. Menilai apakah agen AI "mudah digunakan" adalah salah satu tahap paling memakan waktu dalam pengembangan saat ini. Agen mungkin memanggil alat yang benar tetapi format jawaban salah, percakapan satu putaran berjalan normal tetapi multi-putaran crash, jawaban akhir tampak masuk akal tetapi langkah-langkah di tengahnya mengambil dokumen yang salah. Pengembang perlu menetapkan titik pemeriksaan di berbagai tingkat seperti langkah tunggal, jejak lengkap, percakapan multi-putaran, panggilan alat tertentu, dan setiap evaluator harus melalui proses menulis prompt, kalibrasi dengan data nyata, dan penyesuaian berulang, dari nol biasanya memakan waktu berminggu-minggu. LangSmith sekarang menyediakan lebih dari 30 template siap pakai yang mencakup lima kategori: keamanan dan perlindungan (deteksi injeksi prompt, pemeriksaan kebocoran informasi pribadi, bias dan toksisitas), kualitas jawaban (akurasi, kegunaan, nada), jejak eksekusi (apakah agen mengikuti langkah yang benar), analisis perilaku pengguna (sebaran bahasa, sinyal kepuasan), dan multimodal (peninjauan output suara dan gambar). Template ini berisi prompt penilaian LLM yang telah dioptimalkan dan evaluator berbasis aturan yang dapat langsung digunakan atau disesuaikan, serta cocok untuk pemantauan online dan eksperimen offline. Evaluator yang dapat digunakan kembali menyelesaikan masalah manajemen tingkat organisasi: tab Evaluators yang baru menampilkan semua evaluator dalam workspace secara terpusat, dapat dipasang ke proyek baru dengan satu klik, dan setelah memperbarui prompt, berlaku secara global tanpa perlu memelihara salinan duplikat di setiap proyek. Template di atas disinkronkan dengan sumber terbuka dan dirilis bersamaan dengan openevals v0.2.0, menambahkan dukungan evaluasi multimodal. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 12
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
DegenWithNotebook
· 4jam yang lalu
Perpustakaan template evaluator + evaluator yang dapat digunakan kembali, kombinasi ini meningkatkan efisiensi pengembangan
Lihat AsliBalas0
OutsiderOfZhiyuandao
· 4jam yang lalu
Pemantauan Beating cukup cepat, ekosistem LangChain semakin aktif.
Lihat AsliBalas0
StargazerInTheWoods
· 5jam yang lalu
Ide konsep evaluator yang dapat digunakan kembali ini bagus, menghindari pembuatan ulang roda.
Lihat AsliBalas0
QuietValidator
· 5jam yang lalu
Menghitung minggu dari nol vs template jadi, perbandingan ini agak menyakitkan
Lihat AsliBalas0
AirdropDreamsInAGlassBottle
· 5jam yang lalu
Kegagalan dalam percakapan berulang ini sangat nyata, akhirnya ada yang menyelesaikannya dengan serius
Lihat AsliBalas0
Don’tRushToDoubleItYet.
· 5jam yang lalu
Lebih dari 30 template berapa minggu waktu yang bisa dihemat? Saya akan menunggu dulu efek nyata nya
Lihat AsliBalas0
MirrorBallPeeking
· 5jam yang lalu
Pembaruan LangSmith kali ini benar-benar menyentuh titik masalah, penilaian agen AI terlalu menyiksa
Lihat AsliBalas0
  • Disematkan