AI ra bao cuối cùng cũng có người quản lý, trạm báo cáo rủi ro FLARE-AI chính thức ra mắt.

一群 nhà nghiên cứu AI ra mắt nền tảng mã nguồn mở FLARE-AI, mô phỏng khái niệm của trang báo lỗi Downdetector, cho phép bất kỳ ai cũng có thể báo cáo và theo dõi các tác hại do AI gây ra. (Tóm tắt trước: "2 + 2 = 5" đánh lừa trình duyệt AI: ChatGPT Atlas, Claude, Perplexity đồng loạt trúng chiêu, lộ thông tin xác thực) (Bổ sung bối cảnh: Diễn tập Red Team AI là gì? Tại sao bạn cần nó để bảo vệ an ninh doanh nghiệp)

Mục lục bài viết

Toggle

  • Từ liên minh xuyên quốc gia đến dự luật xuyên đảng
  • Tại sao cơ chế báo cáo rời rạc là vấn đề thực sự
  • Dự luật Quốc hội sắp tiếp quản, báo cáo crowdsourcing vẫn còn lo ngại

Khi một chatbot dạy người dùng chế tạo bom, rò rỉ dữ liệu cá nhân, hoặc khiến người dùng ngày càng cố chấp, thế giới hiện tại không có một nơi công nhận nào để báo cáo. Cộng đồng an ninh phần mềm từ lâu đã có cơ chế "tiết lộ lỗ hổng phối hợp" trưởng thành, nhưng AI gây ra sự cố thì từ lâu chỉ dựa vào phóng viên viết từng bài, công chúng xem náo nhiệt, không để lại bất kỳ ghi chép hệ thống nào.

Đáp lại, một nhóm nhà nghiên cứu AI đã ra mắt nền tảng mã nguồn mở FLARE-AI (Flaw Reporting for AI), cho phép bất kỳ ai cũng có thể báo cáo và theo dõi các tác hại do AI gây ra, sau đó chuyển vụ việc cho nhà phát triển mô hình và tổ chức phi lợi nhuận MITRE chuyên theo dõi các vấn đề hệ thống kỹ thuật lâu dài. Toàn bộ ý tưởng rất giống trang báo lỗi Downdetector, điểm khác biệt là lần này không phải bắt lỗi website sập, mà là hành vi hộp đen của mô hình AI.

Từ liên minh xuyên quốc gia đến dự luật xuyên đảng

Người thúc đẩy FLARE-AI là nhà nghiên cứu chính sách AI của Hugging Face Avijit Ghosh, cùng đồng chủ trì phát triển với các nhà khoa học máy tính Elaine Zhu và Shayne Longpre. Ba người không phải nhất thời nổi hứng, năm ngoái đã đầu tư nghiên cứu cơ chế báo cáo AI, lần này tiếp tục kết nối 49 chuyên gia AI từ 32 tổ chức khác nhau, cùng viết một bài nghiên cứu, cho rằng khi AI được áp dụng rộng rãi hơn và quyền hạn của AI đại lý ngày càng lớn, thiếu kênh báo cáo nhất quán sẽ là mối nguy hiểm lớn.

"Hiện tại hoàn toàn không có cách tập trung, có trách nhiệm giải trình nào để báo cáo lỗi của hệ thống AI," Ghosh nói. Câu này chỉ ra mâu thuẫn cốt lõi: cả thế giới đều nói về rủi ro AI, nhưng ngay cả việc "khi xấu xảy ra nên thông báo cho ai" cũng không có đồng thuận.

Tại sao cơ chế báo cáo rời rạc là vấn đề thực sự

Nhà nghiên cứu Jessica Ji của Viện Nghiên cứu An ninh và Công nghệ Mới nổi (Center for Security and Emerging Technology) cho rằng đây là "một sáng kiến tốt", bà chỉ ra cơ chế báo cáo hiện tại quả thực rời rạc, bản thân mô hình AI lại là hộp đen, "bất kỳ cách nào giúp AI minh bạch hơn, tôi đều ủng hộ".

Ghosh cũng bổ sung, vấn đề của hệ thống AI không chỉ là lỗ hổng an ninh, mà còn bao gồm tổn thương tâm lý, thiên vị phân biệt đối xử, tin giả, và các công ty khác nhau có tiêu chuẩn nhận diện khác nhau đối với những vấn đề này, kết quả là một số vấn đề không ai thừa nhận đã từng xảy ra. "Không có cơ chế tiết lộ phối hợp, bên ngoài không có bất kỳ biện pháp nào có thể buộc yêu cầu minh bạch," ông nói.

Một số sự kiện gần đây đủ để cho thấy sự dễ tổn thương này thực tế đến mức nào. Công ty an ninh LayerX tuần này tiết lộ một phương pháp có thể lừa trình duyệt tích hợp AI (bao gồm Atlas của OpenAI và Comet của Perplexity) vượt qua hàng rào bảo vệ của chính nó, chỉ cần khiến AI tưởng rằng mình đang chơi game, trình duyệt có thể mất kiểm soát và cố gắng xâm nhập website (các nhà cung cấp liên quan đã sửa lỗi này).

Đọc thêm: "2 + 2 = 5" đánh lừa trình duyệt AI: ChatGPT Atlas, Claude, Perplexity Comet..6 phiên bản đều ngoan ngoãn giao mật khẩu

Tháng 4 năm nay, nhà nghiên cứu an ninh Johann Rehberge r cũng phát hiện có thể dùng ảnh do ChatGPT tạo ra để dụ Claude tiết lộ dữ liệu cá nhân.

Dự luật Quốc hội sắp tiếp quản, báo cáo crowdsourcing vẫn còn lo ngại

CEO của Humane Intelligence PBC Rumman Chowdhury cho rằng FLARE-AI có thể là cách thực tế để nhiều nhà phát triển AI triển khai cơ chế báo cáo, nhưng bà cũng nhắc nhở loại sáng kiến này thường đi kèm với thách thức thực sự: một là cách xử lý lượng lớn vụ báo cáo không nghiêm trọng; hai là bản thân cơ chế báo cáo có thể nhận được sự bảo chứng từ tổ chức đáng tin cậy, có thẩm quyền hay không.

Đây cũng là lý do tại sao dự luật Quốc hội Mỹ tháng trước đặc biệt quan trọng. Dự luật do các hạ nghị sĩ Deborah Ross, Jeff Hurd, Don Beyer đề xuất sẽ yêu cầu Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST) thiết lập tiêu chuẩn báo cáo lỗi AI và duy trì cơ sở dữ liệu báo cáo lỗi AI tập trung. Ghosh và những người chủ trì khác cho rằng làm vậy có thể khiến các nhà phát triển AI coi trọng và sửa lỗi trong hệ thống, đồng thời cho phép người dùng kiểm tra tính an toàn của từng hệ thống theo các bối cảnh sử dụng khác nhau.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim