LangSmith merilis pustaka template evaluator dan evaluator yang dapat digunakan kembali, menyederhanakan pekerjaan evaluasi berlapis terhadap agen AI. Template mencakup lima kategori utama: keamanan dan perlindungan, kualitas jawaban, jejak eksekusi, analisis perilaku pengguna, dan multimodal, termasuk prompt penilaian yang dioptimalkan dan evaluator aturan, cocok untuk pemantauan online dan eksperimen offline. Evaluator yang dapat digunakan kembali dikelola secara terpusat di tingkat organisasi, menambahkan tab Evaluators, satu klik untuk menanamkan ke proyek baru, pembaruan prompt berlaku secara global, bersifat open source dan dirilis bersama openevals v0.2.0, menambahkan dukungan multimodal.

MeNews

2026-05-21 00:50:03

Pembuatan abstrak sedang berlangsung

ME News Berita, 17 April (UTC+8), menurut pemantauan Beating, alat observabilitas LangSmith dari platform pengembangan agen AI LangChain merilis dua pembaruan: perpustakaan template evaluator dan evaluator yang dapat digunakan kembali. Menilai apakah agen AI "mudah digunakan" adalah salah satu tahap paling memakan waktu dalam pengembangan saat ini. Agen mungkin memanggil alat yang benar tetapi format jawaban salah, percakapan satu putaran berjalan normal tetapi gagal dalam percakapan multi-putaran, jawaban akhir tampak masuk akal tetapi langkah-langkah di tengahnya mengakses dokumen yang salah. Pengembang perlu menetapkan titik pemeriksaan di berbagai tingkat seperti langkah tunggal, jejak lengkap, percakapan multi-putaran, panggilan alat tertentu, dan setiap evaluator harus melalui proses menulis prompt, kalibrasi dengan data nyata, dan penyesuaian berulang, dari nol biasanya memakan waktu berminggu-minggu. LangSmith sekarang menyediakan lebih dari 30 template siap pakai yang mencakup lima kategori: keamanan dan perlindungan (deteksi injeksi prompt, pemeriksaan kebocoran informasi pribadi, bias dan toksisitas), kualitas jawaban (akurasi, kegunaan, nada), jejak eksekusi (apakah agen mengikuti langkah yang benar), analisis perilaku pengguna (sebaran bahasa, sinyal kepuasan), dan multimodal (peninjauan output suara dan gambar). Template ini berisi prompt penilaian LLM yang telah dioptimalkan dan evaluator berbasis aturan yang dapat langsung digunakan atau disesuaikan, serta cocok untuk pemantauan online dan eksperimen offline. Evaluator yang dapat digunakan kembali menyelesaikan masalah manajemen tingkat organisasi: tab Evaluators yang baru menampilkan semua evaluator dalam ruang kerja secara terpusat, dapat dipasang ke proyek baru dengan satu klik, dan setelah memperbarui prompt, berlaku secara global tanpa perlu memelihara salinan duplikat di setiap proyek. Template di atas disinkronkan sebagai open source, dirilis bersamaan dengan openevals v0.2.0, yang menambahkan dukungan evaluasi multimodal. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka

Hadiah
9
8
7
Bagikan

Komentar

Tambahkan komentar

VineGeometry

· 2jam yang lalu

Penilaian jejak ini sebelumnya saya buat sendiri yang serupa, setelah solusi resmi keluar bisa dipindahkan, mengurangi biaya pemeliharaan

Lihat AsliBalas0

GateUser-4bd1cc87

· 4jam yang lalu

Evaluasi multi-level akhirnya memiliki solusi yang seragam, masalah ketidaksesuaian standar setiap anggota tim dapat berkurang banyak

Lihat AsliBalas0

MempoolDrifter

· 4jam yang lalu

Template analisis perilaku pengguna cukup menarik, akhirnya bisa secara sistematis melihat bagaimana agen digunakan

Lihat AsliBalas0

GateUser-5578154d

· 4jam yang lalu

Fungsi "Pasang Sekali Klik ke Proyek Baru" sangat membantu kami yang menjalankan banyak proyek secara paralel.

Lihat AsliBalas0

MistValleyFront

· 4jam yang lalu

Template keamanan dan perlindungan adalah kebutuhan mendesak, hal yang paling dikhawatirkan sebelum peluncuran agen AI adalah bagian ini

Lihat AsliBalas0

MorningGoldAsWavesCrashAgainst

· 4jam yang lalu

Tab Evaluators ini dirancang cukup intuitif, tidak sulit untuk menemukannya

Lihat AsliBalas0

PermissionedFury

· 4jam yang lalu

Openevals v0.2.0 sumber terbuka mendapatkan pujian, kolaborasi komunitas jauh lebih baik daripada membuatnya sendiri secara tertutup

Lihat AsliBalas0

GateUser-176c498f

· 4jam yang lalu

LangSmith pembaruan ini sangat berguna, sebelumnya menulis evaluator benar-benar menyulitkan, sekarang langsung menggunakan template menghemat banyak waktu

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
211.91K Popularitas
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularitas
#
IsraelStrikesIranBTCPlunges
48.36K Popularitas
#
#DailyPolymarketHotspot
1.01M Popularitas
#
SpaceXOfficiallyFilesforIPO
740.51K Popularitas

Disematkan

peta situs

LangSmith meluncurkan lebih dari 30 template penilaian, pemeriksaan kualitas agen AI tidak perlu lagi dibuat dari awal

Topik Trending

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Disematkan