ME News Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, công cụ quan sát của nền tảng phát triển đại lý AI LangChain đã phát hành hai cập nhật: thư viện mẫu đánh giá và bộ đánh giá có thể tái sử dụng. Đánh giá xem AI đại lý có "dễ sử dụng" hay không là một trong những bước tiêu tốn nhiều thời gian nhất trong quá trình phát triển. Đại lý có thể gọi đúng công cụ nhưng định dạng câu trả lời không đúng, đối thoại một lượt bình thường nhưng nhiều lượt thì gặp sự cố, câu trả lời cuối cùng có vẻ hợp lý nhưng các bước trung gian đã truy xuất sai tài liệu. Các nhà phát triển cần thiết lập điểm kiểm tra ở nhiều cấp độ như từng bước, toàn bộ quá trình, đối thoại nhiều lượt, gọi công cụ cụ thể, trong khi mỗi bộ đánh giá đều phải trải qua quá trình viết prompt, hiệu chỉnh dựa trên dữ liệu thực tế, tối ưu hóa nhiều lần, bắt đầu từ con số 0 thường mất vài tuần. Hiện tại, LangSmith cung cấp hơn 30 mẫu sẵn có, bao gồm năm loại: An toàn và phòng vệ (phát hiện tiêm prompt, kiểm tra rò rỉ thông tin cá nhân, định kiến và độc hại), Chất lượng câu trả lời (độ chính xác, hữu ích, giọng điệu), Quá trình thực thi (đại lý có đi đúng các bước không), Phân tích hành vi người dùng (phân phối ngôn ngữ, tín hiệu hài lòng), Đa phương thức (kiểm tra đầu ra âm thanh và hình ảnh). Các mẫu này bao gồm các prompt đánh giá đã tối ưu hóa của LLM và bộ đánh giá dựa trên quy tắc, có thể sử dụng trực tiếp hoặc tùy chỉnh, phù hợp cho giám sát trực tuyến và thử nghiệm ngoại tuyến. Bộ đánh giá có thể tái sử dụng giải quyết vấn đề quản lý cấp tổ chức: tab Evaluators mới tập trung hiển thị tất cả các bộ đánh giá trong workspace, có thể gắn vào dự án mới chỉ một lần, sau khi cập nhật prompt sẽ có hiệu lực toàn cục, không cần duy trì bản sao trùng lặp trong từng dự án. Các mẫu này đồng bộ mã nguồn mở, ra mắt cùng openevals v0.2.0, bổ sung hỗ trợ đánh giá đa phương thức. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

12 thích

Phần thưởng
12
7
12
Retweed

Bình luận

Thêm một bình luận

DegenWithNotebook

· 8giờ trước

Thư viện mẫu bộ đánh giá + bộ đánh giá có thể tái sử dụng, tổ hợp nhằm nâng cao hiệu quả phát triển

Xem bản gốcTrả lời0

OutsiderOfZhiyuandao

· 9giờ trước

Việc giám sát Beating diễn ra khá nhanh, hệ sinh thái LangChain ngày càng hoạt động sôi động hơn

Xem bản gốcTrả lời0

StargazerInTheWoods

· 9giờ trước

Ý tưởng thiết kế của bộ đánh giá có thể tái sử dụng này rất hay, tránh việc phải tự làm lại từ đầu bánh xe

Xem bản gốcTrả lời0

QuietValidator

· 9giờ trước

Đếm tuần từ số 0 vs mẫu có sẵn, so sánh này hơi đau lòng một chút

Xem bản gốcTrả lời0

AirdropDreamsInAGlassBottle

· 9giờ trước

Cuộc trò chuyện nhiều vòng bị sập thật sự quá chân thực, cuối cùng có người nghiêm túc giải quyết

Xem bản gốcTrả lời0

Don’tRushToDoubleItYet.

· 9giờ trước

Hơn 30 mẫu có thể tiết kiệm được vài tuần thời gian? Tôi sẽ chờ xem kết quả thực tế thế nào

Xem bản gốcTrả lời0

MirrorBallPeeking

· 9giờ trước

Cập nhật lần này của LangSmith thực sự chạm đúng vào điểm đau, việc đánh giá đại lý AI quá khó khăn.

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
222.85K Phổ biến
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Phổ biến
#
IsraelStrikesIranBTCPlunges
48.42K Phổ biến
#
#DailyPolymarketHotspot
1.01M Phổ biến
#
SpaceXOfficiallyFilesforIPO
744.52K Phổ biến

Đã ghim

sơ đồ trang web

LangSmith ra mắt hơn 30 mẫu đánh giá, kiểm tra chất lượng của đại lý AI không còn phải bắt đầu từ đầu nữa

Chủ đề thịnh hành

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Đã ghim