Hôm nay Anthropic đã phát hành mô hình nguy hiểm nhất của họ


Hơi giống vậy. Mô hình gọi là Mythos, và nó rất giỏi trong việc tìm kiếm và xâm nhập vào phần mềm đến mức Anthropic đã dành 2 tháng chỉ để cho các nhà phòng thủ mạng và các công ty hạ tầng tiếp cận nó.
Những gì bạn nhận được hôm nay là Fable 5, cùng một mô hình với bộ lọc chặn các câu hỏi về an ninh mạng, sinh học và hóa học và chuyển những câu hỏi đó sang mô hình yếu hơn.
Tuy nhiên, bộ lọc đó chỉ hoạt động trên dưới 5% các phiên. Vì vậy 95% thời gian bạn đang nói chuyện với thứ mà họ nói là quá nguy hiểm để phát hành.
Đội đỏ của Anthropic đã dành 1.000 giờ cố gắng phá vỡ các biện pháp bảo vệ và không thành công.
Nhưng internet có nhiều hơn 1.000 giờ và có lý do tốt hơn để thử. Mọi mô hình bị khóa trong lịch sử đều đã bị jailbreak, thường trong vòng vài ngày.
Những tuần tới sẽ rất đáng xem.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim