LangSmith meluncurkan lebih dari 30 template penilaian, pemeriksaan kualitas agen AI tidak perlu lagi dibuat dari awal

robot
Pembuatan abstrak sedang berlangsung
ME News Berita, 17 April (UTC+8), menurut pemantauan Beating, alat observabilitas LangSmith dari platform pengembangan agen AI LangChain merilis dua pembaruan: perpustakaan template evaluator dan evaluator yang dapat digunakan kembali. Menilai apakah agen AI "mudah digunakan" adalah salah satu tahap paling memakan waktu dalam pengembangan saat ini. Agen mungkin memanggil alat yang benar tetapi format jawaban salah, percakapan satu putaran berjalan normal tetapi gagal dalam percakapan multi-putaran, jawaban akhir tampak masuk akal tetapi langkah-langkah di tengahnya mengakses dokumen yang salah. Pengembang perlu menetapkan titik pemeriksaan di berbagai tingkat seperti langkah tunggal, jejak lengkap, percakapan multi-putaran, panggilan alat tertentu, dan setiap evaluator harus melalui proses menulis prompt, kalibrasi dengan data nyata, dan penyesuaian berulang, dari nol biasanya memakan waktu berminggu-minggu. LangSmith sekarang menyediakan lebih dari 30 template siap pakai yang mencakup lima kategori: keamanan dan perlindungan (deteksi injeksi prompt, pemeriksaan kebocoran informasi pribadi, bias dan toksisitas), kualitas jawaban (akurasi, kegunaan, nada), jejak eksekusi (apakah agen mengikuti langkah yang benar), analisis perilaku pengguna (sebaran bahasa, sinyal kepuasan), dan multimodal (peninjauan output suara dan gambar). Template ini berisi prompt penilaian LLM yang telah dioptimalkan dan evaluator berbasis aturan yang dapat langsung digunakan atau disesuaikan, serta cocok untuk pemantauan online dan eksperimen offline. Evaluator yang dapat digunakan kembali menyelesaikan masalah manajemen tingkat organisasi: tab Evaluators yang baru menampilkan semua evaluator dalam ruang kerja secara terpusat, dapat dipasang ke proyek baru dengan satu klik, dan setelah memperbarui prompt, berlaku secara global tanpa perlu memelihara salinan duplikat di setiap proyek. Template di atas disinkronkan sebagai open source, dirilis bersamaan dengan openevals v0.2.0, yang menambahkan dukungan evaluasi multimodal. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • 7
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
VineGeometry
· 2jam yang lalu
Penilaian jejak ini sebelumnya saya buat sendiri yang serupa, setelah solusi resmi keluar bisa dipindahkan, mengurangi biaya pemeliharaan
Lihat AsliBalas0
GateUser-4bd1cc87
· 4jam yang lalu
Evaluasi multi-level akhirnya memiliki solusi yang seragam, masalah ketidaksesuaian standar setiap anggota tim dapat berkurang banyak
Lihat AsliBalas0
MempoolDrifter
· 4jam yang lalu
Template analisis perilaku pengguna cukup menarik, akhirnya bisa secara sistematis melihat bagaimana agen digunakan
Lihat AsliBalas0
GateUser-5578154d
· 4jam yang lalu
Fungsi "Pasang Sekali Klik ke Proyek Baru" sangat membantu kami yang menjalankan banyak proyek secara paralel.
Lihat AsliBalas0
MistValleyFront
· 4jam yang lalu
Template keamanan dan perlindungan adalah kebutuhan mendesak, hal yang paling dikhawatirkan sebelum peluncuran agen AI adalah bagian ini
Lihat AsliBalas0
MorningGoldAsWavesCrashAgainst
· 4jam yang lalu
Tab Evaluators ini dirancang cukup intuitif, tidak sulit untuk menemukannya
Lihat AsliBalas0
PermissionedFury
· 4jam yang lalu
Openevals v0.2.0 sumber terbuka mendapatkan pujian, kolaborasi komunitas jauh lebih baik daripada membuatnya sendiri secara tertutup
Lihat AsliBalas0
GateUser-176c498f
· 4jam yang lalu
LangSmith pembaruan ini sangat berguna, sebelumnya menulis evaluator benar-benar menyulitkan, sekarang langsung menggunakan template menghemat banyak waktu
Lihat AsliBalas0
  • Disematkan