Google đề xuất phương pháp đánh giá liên tục trong kỹ thuật để đối phó với thách thức đánh giá môi trường sản xuất của AI agent

robot
Đang tạo bản tóm tắt

Tin tức từ ME, ngày 4 tháng 4 (UTC+8). Gần đây, GoogleCloudTech đã đăng bài cho biết rằng việc dựa vào trò chuyện thủ công và cảm nhận chủ quan (tức là “kiểm tra bầu không khí”) để đánh giá tác nhân AI trong môi trường sản xuất là không đáng tin cậy và có thể dẫn đến thảm họa. Bài viết cho rằng do đặc tính dựa trên xác suất của AI tạo sinh, chỉ cần những thay đổi nhỏ về prompt hoặc trọng số mô hình cũng có thể làm suy giảm hiệu năng đáng kể. Để giải quyết vấn đề này, bài viết đề xuất một phương pháp kỹ thuật là áp dụng đánh giá liên tục (CE). Phương pháp này phân biệt hai chế độ trong kỹ thuật AI: chế độ khám phá (phòng thí nghiệm) và chế độ phòng thủ (nhà máy). Chế độ khám phá tập trung vào việc tìm kiếm tiềm năng của mô hình thông qua một số lượng ví dụ ít và các “kiểm tra bầu không khí”; trong khi chế độ phòng thủ lại chú trọng tính ổn định, bằng cách đánh giá dựa trên bộ dữ liệu, kiểm soát chặt chẽ và các chỉ số tự động để bảo đảm hệ thống đáp ứng mục tiêu mức dịch vụ (SLO). Bài viết cảnh báo nhiều đội ngũ sẽ duy trì lâu dài ở chế độ khám phá. Trong bài còn nêu ví dụ về một hệ thống đa tác nhân phân tán (hệ thống người tạo khóa học) được xây dựng dựa trên Cloud Run và giao thức Agent2Agent, nhằm minh họa việc thực hành chế độ phòng thủ để triển khai AI cấp độ sản xuất đáng tin cậy và có khả năng mở rộng thông qua việc tuân thủ nguyên tắc tách biệt các mối quan tâm và các tác nhân chuyên biệt (như nghiên cứu viên, thẩm phán, người xây dựng nội dung, điều phối viên). (Nguồn: InFoQ)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim