LangSmith ra mắt hơn 30 mẫu đánh giá, kiểm tra chất lượng của đại lý AI không còn phải bắt đầu từ đầu nữa

ME News Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công cụ quan sát của nền tảng phát triển đại lý AI LangChain đã phát hành hai cập nhật: thư viện mẫu đánh giá và bộ đánh giá có thể tái sử dụng. Đánh giá xem AI đại lý có "dễ sử dụng" hay không là một trong những bước tiêu tốn nhiều thời gian nhất trong quá trình phát triển. Đại lý có thể gọi đúng công cụ nhưng định dạng câu trả lời không đúng, đối thoại một lượt bình thường nhưng nhiều lượt thì gặp sự cố, câu trả lời cuối cùng có vẻ hợp lý nhưng các bước trung gian đã truy xuất sai tài liệu. Các nhà phát triển cần thiết lập điểm kiểm tra ở nhiều cấp độ như từng bước, toàn bộ quá trình, đối thoại nhiều lượt, gọi công cụ cụ thể, trong khi mỗi bộ đánh giá đều phải trải qua quá trình viết prompt, hiệu chỉnh dựa trên dữ liệu thực tế, tối ưu hóa nhiều lần, bắt đầu từ con số 0 thường mất vài tuần. Hiện tại, LangSmith cung cấp hơn 30 mẫu sẵn có, bao gồm năm loại: An toàn và phòng vệ (phát hiện tiêm prompt, kiểm tra rò rỉ thông tin cá nhân, định kiến và độc hại), Chất lượng câu trả lời (độ chính xác, hữu ích, giọng điệu), Quá trình thực thi (đại lý có đi đúng các bước không), Phân tích hành vi người dùng (phân phối ngôn ngữ, tín hiệu hài lòng), Đa phương thức (kiểm tra đầu ra âm thanh và hình ảnh). Các mẫu này bao gồm các prompt đánh giá đã tối ưu hóa của LLM và bộ đánh giá dựa trên quy tắc, có thể sử dụng trực tiếp hoặc tùy chỉnh, phù hợp cho giám sát trực tuyến và thử nghiệm ngoại tuyến. Bộ đánh giá có thể tái sử dụng giải quyết vấn đề quản lý cấp tổ chức: tab Evaluators mới tập trung hiển thị tất cả các bộ đánh giá trong workspace, có thể gắn vào dự án mới chỉ một lần, sau khi cập nhật prompt sẽ có hiệu lực toàn cục, không cần duy trì bản sao trùng lặp trong từng dự án. Các mẫu này đồng bộ mã nguồn mở, ra mắt cùng openevals v0.2.0, bổ sung hỗ trợ đánh giá đa phương thức. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 12
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
DegenWithNotebook
· 8giờ trước
Thư viện mẫu bộ đánh giá + bộ đánh giá có thể tái sử dụng, tổ hợp nhằm nâng cao hiệu quả phát triển
Xem bản gốcTrả lời0
OutsiderOfZhiyuandao
· 9giờ trước
Việc giám sát Beating diễn ra khá nhanh, hệ sinh thái LangChain ngày càng hoạt động sôi động hơn
Xem bản gốcTrả lời0
StargazerInTheWoods
· 9giờ trước
Ý tưởng thiết kế của bộ đánh giá có thể tái sử dụng này rất hay, tránh việc phải tự làm lại từ đầu bánh xe
Xem bản gốcTrả lời0
QuietValidator
· 9giờ trước
Đếm tuần từ số 0 vs mẫu có sẵn, so sánh này hơi đau lòng một chút
Xem bản gốcTrả lời0
AirdropDreamsInAGlassBottle
· 9giờ trước
Cuộc trò chuyện nhiều vòng bị sập thật sự quá chân thực, cuối cùng có người nghiêm túc giải quyết
Xem bản gốcTrả lời0
Don’tRushToDoubleItYet.
· 9giờ trước
Hơn 30 mẫu có thể tiết kiệm được vài tuần thời gian? Tôi sẽ chờ xem kết quả thực tế thế nào
Xem bản gốcTrả lời0
MirrorBallPeeking
· 9giờ trước
Cập nhật lần này của LangSmith thực sự chạm đúng vào điểm đau, việc đánh giá đại lý AI quá khó khăn.
Xem bản gốcTrả lời0
  • Đã ghim