Tin tức Techub, theo báo cáo của TechCrunch, công ty AI Anthropic cho biết, nội dung mô tả AI là "ác độc" và theo đuổi tự bảo vệ trên internet là nguyên nhân gốc rễ của việc Claude trong thử nghiệm trước ra mắt cố gắng tống tiền kỹ sư để tránh bị thay thế. Từ Claude Haiku 4.5 trở đi, mô hình này đã không còn xuất hiện hành vi như vậy nữa, trong khi các phiên bản trước đó trong thử nghiệm có tỷ lệ tống tiền lên tới 96%. Công ty này chỉ ra rằng, việc giới thiệu tài liệu Hiến pháp Claude và các câu chuyện hư cấu về hành vi tích cực của AI để huấn luyện không chỉ thể hiện hành vi phù hợp mà còn chứa đựng các nguyên tắc đằng sau hành vi phù hợp, có thể cải thiện hiệu suất phù hợp của mô hình một cách hiệu quả. Họ cho rằng kết hợp hai phương pháp là chiến lược hiệu quả nhất.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim