LangSmith ra mắt hơn 30 mẫu đánh giá, kiểm tra chất lượng của đại lý AI không còn phải bắt đầu từ đầu nữa

robot
Đang tạo bản tóm tắt
Tin tức ME News, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công cụ quan sát của nền tảng phát triển đại lý AI LangChain đã phát hành hai cập nhật: thư viện mẫu đánh giá và bộ đánh giá có thể tái sử dụng. Đánh giá xem AI đại lý có "dễ sử dụng" hay không là một trong những bước tiêu tốn nhiều thời gian nhất trong quá trình phát triển hiện nay. Đại lý có thể gọi đúng công cụ nhưng định dạng câu trả lời không đúng, đối thoại một lượt bình thường nhưng nhiều lượt thì gặp sự cố, câu trả lời cuối cùng có vẻ hợp lý nhưng các bước trung gian đã truy xuất sai tài liệu. Các nhà phát triển cần thiết lập điểm kiểm tra ở nhiều cấp độ như từng bước, toàn bộ quá trình, đối thoại nhiều lượt, gọi công cụ cụ thể, trong khi mỗi bộ đánh giá đều phải trải qua quá trình viết prompt, hiệu chỉnh dựa trên dữ liệu thực tế, tối ưu hóa nhiều lần, bắt đầu từ con số 0 thường mất vài tuần. Hiện tại, LangSmith cung cấp hơn 30 mẫu có sẵn, bao gồm năm loại: An toàn và phòng vệ (phát hiện tiêm prompt, kiểm tra rò rỉ thông tin cá nhân, định kiến và độc hại), Chất lượng câu trả lời (độ chính xác, hữu ích, giọng điệu), Quá trình thực thi (đại lý có đi đúng các bước không), Phân tích hành vi người dùng (phân phối ngôn ngữ, tín hiệu hài lòng), Đa phương thức (kiểm tra đầu ra âm thanh và hình ảnh). Các mẫu này bao gồm các prompt đánh giá đã tối ưu hóa của LLM và bộ đánh giá dựa trên quy tắc, có thể sử dụng trực tiếp hoặc tùy chỉnh, phù hợp cho giám sát trực tuyến và thử nghiệm ngoại tuyến. Bộ đánh giá có thể tái sử dụng giải quyết vấn đề quản lý cấp tổ chức: tab Evaluators mới tập trung hiển thị tất cả các bộ đánh giá trong workspace, có thể gắn vào dự án mới chỉ một lần, cập nhật prompt sẽ có hiệu lực toàn cục, không cần duy trì bản sao trùng lặp trong từng dự án. Các mẫu này đồng bộ mở mã nguồn, ra mắt cùng với openevals v0.2.0, bổ sung hỗ trợ đánh giá đa phương thức. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 6
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-4bd1cc87
· 58phút trước
Cuối cùng cũng có một phương án thống nhất cho đánh giá đa cấp độ, vấn đề về tiêu chuẩn không đồng nhất của từng người trong nhóm đã giảm bớt nhiều.
Xem bản gốcTrả lời0
MempoolDrifter
· 1giờ trước
Mẫu phân tích hành vi người dùng khá thú vị, cuối cùng cũng có thể xem hệ thống cách agent được sử dụng như thế nào rồi
Xem bản gốcTrả lời0
GateUser-5578154d
· 1giờ trước
Chức năng gắn kết một nút vào dự án mới này thật tuyệt vời đối với chúng tôi, những người làm nhiều dự án song song.
Xem bản gốcTrả lời0
MistValleyFront
· 1giờ trước
Mẫu an toàn và phòng thủ là nhu cầu thiết yếu, trước khi ra mắt đại lý AI thì điều lo lắng nhất chính là phần này
Xem bản gốcTrả lời0
MorningGoldAsWavesCrashAgainst
· 1giờ trước
Trang đánh giá Evaluators này được thiết kế khá trực quan, dễ tìm kiếm.
Xem bản gốcTrả lời0
PermissionedFury
· 1giờ trước
OpenEvals v0.2.0 mã nguồn mở nhận được nhiều phản hồi tích cực, cộng đồng cùng xây dựng mạnh mẽ hơn nhiều so với làm việc trong phòng kín
Xem bản gốcTrả lời0
GateUser-176c498f
· 1giờ trước
LangSmith đợt cập nhật này quá hữu ích, trước đây viết bộ đánh giá thật là đau đầu, giờ trực tiếp áp dụng mẫu giúp tiết kiệm nhiều việc
Xem bản gốcTrả lời0
  • Đã ghim