ME News Berita, 17 April (UTC+8), menurut pemantauan Beating dari Dongcha, alat observabilitas LangSmith dari platform pengembangan agen AI meluncurkan dua pembaruan: perpustakaan template evaluator dan evaluator yang dapat digunakan kembali. Menilai apakah agen AI "mudah digunakan" adalah salah satu tahap paling memakan waktu dalam pengembangan saat ini. Agen mungkin memanggil alat yang benar tetapi format jawaban salah, percakapan satu putaran berjalan normal tetapi multi-putaran crash, jawaban akhir tampak masuk akal tetapi langkah-langkah di tengahnya mengambil dokumen yang salah. Pengembang perlu menetapkan titik pemeriksaan di berbagai tingkat seperti langkah tunggal, jejak lengkap, percakapan multi-putaran, panggilan alat tertentu, dan setiap evaluator harus melalui proses menulis prompt, kalibrasi dengan data nyata, dan penyesuaian berulang, dari nol biasanya memakan waktu berminggu-minggu. LangSmith sekarang menyediakan lebih dari 30 template siap pakai yang mencakup lima kategori: keamanan dan perlindungan (deteksi injeksi prompt, pemeriksaan kebocoran informasi pribadi, bias dan toksisitas), kualitas jawaban (akurasi, kegunaan, nada), jejak eksekusi (apakah agen mengikuti langkah yang benar), analisis perilaku pengguna (sebaran bahasa, sinyal kepuasan), dan multimodal (peninjauan output suara dan gambar). Template ini berisi prompt penilaian LLM yang telah dioptimalkan dan evaluator berbasis aturan yang dapat langsung digunakan atau disesuaikan, serta cocok untuk pemantauan online dan eksperimen offline. Evaluator yang dapat digunakan kembali menyelesaikan masalah manajemen tingkat organisasi: tab Evaluators yang baru menampilkan semua evaluator dalam workspace secara terpusat, dapat dipasang ke proyek baru dengan satu klik, dan setelah memperbarui prompt, berlaku secara global tanpa perlu memelihara salinan duplikat di setiap proyek. Template di atas disinkronkan dengan sumber terbuka dan dirilis bersamaan dengan openevals v0.2.0, menambahkan dukungan evaluasi multimodal. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

10 Suka

Hadiah
10
7
12
Bagikan

Komentar

Tambahkan komentar

DegenWithNotebook

· 4jam yang lalu

Perpustakaan template evaluator + evaluator yang dapat digunakan kembali, kombinasi ini meningkatkan efisiensi pengembangan

Lihat AsliBalas0

OutsiderOfZhiyuandao

· 4jam yang lalu

Pemantauan Beating cukup cepat, ekosistem LangChain semakin aktif.

Lihat AsliBalas0

StargazerInTheWoods

· 5jam yang lalu

Ide konsep evaluator yang dapat digunakan kembali ini bagus, menghindari pembuatan ulang roda.

Lihat AsliBalas0

QuietValidator

· 5jam yang lalu

Menghitung minggu dari nol vs template jadi, perbandingan ini agak menyakitkan

Lihat AsliBalas0

AirdropDreamsInAGlassBottle

· 5jam yang lalu

Kegagalan dalam percakapan berulang ini sangat nyata, akhirnya ada yang menyelesaikannya dengan serius

Lihat AsliBalas0

Don’tRushToDoubleItYet.

· 5jam yang lalu

Lebih dari 30 template berapa minggu waktu yang bisa dihemat? Saya akan menunggu dulu efek nyata nya

Lihat AsliBalas0

MirrorBallPeeking

· 5jam yang lalu

Pembaruan LangSmith kali ini benar-benar menyentuh titik masalah, penilaian agen AI terlalu menyiksa

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
216.35K Popularitas
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularitas
#
IsraelStrikesIranBTCPlunges
48.4K Popularitas
#
#DailyPolymarketHotspot
1.01M Popularitas
#
SpaceXOfficiallyFilesforIPO
741.84K Popularitas

Disematkan

peta situs

LangSmith meluncurkan lebih dari 30 template penilaian, pemeriksaan kualitas agen AI tidak perlu lagi dibuat dari awal

Topik Trending

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Disematkan