Đội ngũ Berkeley công bố đã phá vỡ 8 tiêu chuẩn đánh giá trí tuệ nhân tạo chính và mở mã công cụ

ME News Tin tức, ngày 19 tháng 4 (UTC+8), nhóm nghiên cứu trí tuệ nhân tạo Berkeley (berkeley_ai) đã trích dẫn tuyên bố của Dawn Song, thông báo nhóm của cô đã thành công trong việc phá vỡ 8 tiêu chuẩn đánh giá trí tuệ nhân tạo chính. Nhóm quyết định mở mã nguồn công cụ để đạt được kết quả này và đặt tên là BenchJack. Công cụ này được mô tả là "kiểm thử xâm nhập cho đánh giá", nhằm giúp các nhà phát triển khác chủ động kiểm tra và phát hiện các điểm yếu tiềm ẩn trong hệ thống đánh giá của chính họ. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 7
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GateUser-46033407
· 6giờ trước
Dawn Song thực sự vững vàng trong lĩnh vực an ninh và AI giao thoa, lần này lại chạm đúng điểm mấu chốt rồi
Xem bản gốcTrả lời0
GateUser-f2d5f4c0
· 7giờ trước
Các công cụ mã nguồn mở có giá trị hơn cả bài báo, ít nhất có thể giúp mọi người tự kiểm tra xem benchmark có đáng tin cậy hay không
Xem bản gốcTrả lời0
ThePatienceRequiredFor
· 7giờ trước
8 tiêu chuẩn chính bị phá vỡ toàn diện, cảm giác hiện tại hàng rào bảo vệ của agent eval còn mỏng hơn tưởng tượng
Xem bản gốcTrả lời0
GovernanceVotingTug-Of-WarKing
· 7giờ trước
Về khái niệm kiểm thử xâm nhập cho đánh giá, nó khá mới mẻ, trước đây đều là kiểm tra mô hình, bây giờ là kiểm tra chính đề thi.
Xem bản gốcTrả lời0
NeonIceMelt
· 7giờ trước
Đội ngũ Dawn Song lần này rất Berkeley, trước tiên tấn công phá vỡ rồi mới mở mã nguồn, điển hình của phong cách hacker học thuật
Xem bản gốcTrả lời0
DustyAlpha
· 7giờ trước
berkeley_ai ra tay là rất quyết đoán, mong đợi xem cụ thể cách họ vượt qua những bài đánh giá này như thế nào
Xem bản gốcTrả lời0
Wax-SealedPrivateKey
· 7giờ trước
BenchJack cái tên này khá thú vị, hệ thống đánh giá cũng cần phải có kiểm thử xâm nhập của riêng mình rồi
Xem bản gốcTrả lời0
  • Đã ghim