LangSmith phát hành thư viện mẫu đánh giá và đánh giá có thể tái sử dụng, đơn giản hóa công việc đánh giá nhiều cấp độ đối với AI代理。Mẫu bao gồm các lĩnh vực an toàn và phòng thủ, chất lượng câu trả lời, hành trình thực thi, phân tích hành vi người dùng và đa phương thức, kèm theo các gợi ý đánh giá tối ưu và bộ quy tắc đánh giá, phù hợp cho giám sát trực tuyến và thử nghiệm ngoại tuyến. Đánh giá có thể tái sử dụng được quản lý tập trung ở cấp tổ chức, thêm tab Nhân viên Đánh giá, gắn kết một cú nhấp để tích hợp vào dự án mới, cập nhật gợi ý đánh giá toàn cầu, mã nguồn mở và đi kèm với phiên bản openevals v0.2.0, bổ sung hỗ trợ đa phương thức.

MeNews

2026-05-21 00:50:03

Đang tạo bản tóm tắt

Tin tức ME News, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công cụ quan sát của nền tảng phát triển đại lý AI LangChain đã phát hành hai cập nhật: thư viện mẫu đánh giá và bộ đánh giá có thể tái sử dụng. Đánh giá xem AI đại lý có "dễ sử dụng" hay không là một trong những bước tiêu tốn nhiều thời gian nhất trong quá trình phát triển hiện nay. Đại lý có thể gọi đúng công cụ nhưng định dạng câu trả lời không đúng, đối thoại một lượt bình thường nhưng nhiều lượt thì gặp sự cố, câu trả lời cuối cùng có vẻ hợp lý nhưng các bước trung gian đã truy xuất sai tài liệu. Các nhà phát triển cần thiết lập điểm kiểm tra ở nhiều cấp độ như từng bước, toàn bộ quá trình, đối thoại nhiều lượt, gọi công cụ cụ thể, trong khi mỗi bộ đánh giá đều phải trải qua quá trình viết prompt, hiệu chỉnh dựa trên dữ liệu thực tế, tối ưu hóa nhiều lần, bắt đầu từ con số 0 thường mất vài tuần. Hiện tại, LangSmith cung cấp hơn 30 mẫu có sẵn, bao gồm năm loại: An toàn và phòng vệ (phát hiện tiêm prompt, kiểm tra rò rỉ thông tin cá nhân, định kiến và độc hại), Chất lượng câu trả lời (độ chính xác, hữu ích, giọng điệu), Quá trình thực thi (đại lý có đi đúng các bước không), Phân tích hành vi người dùng (phân phối ngôn ngữ, tín hiệu hài lòng), Đa phương thức (kiểm tra đầu ra âm thanh và hình ảnh). Các mẫu này bao gồm các prompt đánh giá đã tối ưu hóa của LLM và bộ đánh giá dựa trên quy tắc, có thể sử dụng trực tiếp hoặc tùy chỉnh, phù hợp cho giám sát trực tuyến và thử nghiệm ngoại tuyến. Bộ đánh giá có thể tái sử dụng giải quyết vấn đề quản lý cấp tổ chức: tab Evaluators mới tập trung hiển thị tất cả các bộ đánh giá trong workspace, có thể gắn vào dự án mới chỉ một lần, cập nhật prompt sẽ có hiệu lực toàn cục, không cần duy trì bản sao trùng lặp trong từng dự án. Các mẫu này đồng bộ mở mã nguồn, ra mắt cùng với openevals v0.2.0, bổ sung hỗ trợ đánh giá đa phương thức. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
7
6
Retweed

Bình luận

Thêm một bình luận

GateUser-4bd1cc87

· 58phút trước

Cuối cùng cũng có một phương án thống nhất cho đánh giá đa cấp độ, vấn đề về tiêu chuẩn không đồng nhất của từng người trong nhóm đã giảm bớt nhiều.

Xem bản gốcTrả lời0

MempoolDrifter

· 1giờ trước

Mẫu phân tích hành vi người dùng khá thú vị, cuối cùng cũng có thể xem hệ thống cách agent được sử dụng như thế nào rồi

Xem bản gốcTrả lời0

GateUser-5578154d

· 1giờ trước

Chức năng gắn kết một nút vào dự án mới này thật tuyệt vời đối với chúng tôi, những người làm nhiều dự án song song.

Xem bản gốcTrả lời0

MistValleyFront

· 1giờ trước

Mẫu an toàn và phòng thủ là nhu cầu thiết yếu, trước khi ra mắt đại lý AI thì điều lo lắng nhất chính là phần này

Xem bản gốcTrả lời0

MorningGoldAsWavesCrashAgainst

· 1giờ trước

Trang đánh giá Evaluators này được thiết kế khá trực quan, dễ tìm kiếm.

Xem bản gốcTrả lời0

PermissionedFury

· 1giờ trước

OpenEvals v0.2.0 mã nguồn mở nhận được nhiều phản hồi tích cực, cộng đồng cùng xây dựng mạnh mẽ hơn nhiều so với làm việc trong phòng kín

Xem bản gốcTrả lời0

GateUser-176c498f

· 1giờ trước

LangSmith đợt cập nhật này quá hữu ích, trước đây viết bộ đánh giá thật là đau đầu, giờ trực tiếp áp dụng mẫu giúp tiết kiệm nhiều việc

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
206.26K Phổ biến
#
30YearTreasuryYieldBreaks5%
369.76K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.36K Phổ biến
#
#DailyPolymarketHotspot
1M Phổ biến
#
RWAMarketCapExceeds65Billion
8.76M Phổ biến

Đã ghim

sơ đồ trang web

LangSmith ra mắt hơn 30 mẫu đánh giá, kiểm tra chất lượng của đại lý AI không còn phải bắt đầu từ đầu nữa

Chủ đề thịnh hành

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Đã ghim