Anthropic triển khai các biện pháp bảo vệ bầu cử cho Claude AI trước cuộc bầu cử giữa kỳ của Mỹ

Tóm tắt ngắn gọn

  • Các mô hình Claude mới nhất của Anthropic đạt 95-96% trong các bài kiểm tra trung lập chính trị và 99,8-100% trong việc tuân thủ chính sách bầu cử.
  • Công ty sẽ triển khai các biểu ngữ thông tin bầu cử hướng người dùng đến các nguồn tài nguyên bỏ phiếu phi đảng phái đáng tin cậy cho kỳ bầu cử giữa kỳ năm 2026.
  • Các biện pháp này diễn ra trong bối cảnh các chính phủ đang xem xét tác động tiềm năng của AI đối với tính toàn vẹn của bầu cử và thông tin sai lệch.

Anthropic, công ty trí tuệ nhân tạo đứng sau chatbot Claude, đã công bố vào thứ Sáu một loạt các biện pháp bảo vệ tính toàn vẹn bầu cử mới nhằm ngăn AI của họ bị lợi dụng để phát tán thông tin sai lệch hoặc thao túng cử tri trước kỳ bầu cử giữa kỳ năm 2026 của Mỹ và các cuộc tranh cử lớn khác trên toàn thế giới trong năm nay. Công ty có trụ sở tại San Francisco này đã chi tiết hóa một phương pháp đa chiều bao gồm hệ thống phát hiện tự động, kiểm tra căng thẳng chống lại các hoạt động ảnh hưởng, và hợp tác với một tổ chức nguồn tài nguyên cử tri phi đảng phái—những biện pháp phản ánh áp lực ngày càng tăng đối với các nhà phát triển AI trong việc kiểm soát cách các công cụ của họ được sử dụng trong mùa bầu cử. Chính sách sử dụng của Anthropic cấm Claude được sử dụng để chạy các chiến dịch chính trị lừa đảo, tạo nội dung kỹ thuật số giả mạo nhằm tác động đến diễn đàn chính trị, phạm tội gian lận bầu cử, can thiệp vào hạ tầng bỏ phiếu hoặc phát tán thông tin gây hiểu lầm về quy trình bỏ phiếu.

Để thực thi các quy tắc đó, công ty cho biết đã đưa các mô hình mới nhất của mình qua một loạt các bài kiểm tra. Sử dụng 600 yêu cầu—300 yêu cầu có hại kết hợp với 300 yêu cầu hợp pháp—Anthropic đã đo lường độ tin cậy của Claude trong việc tuân thủ các yêu cầu phù hợp và từ chối các yêu cầu vấn đề. Claude Opus 4.7 và Claude Sonnet 4.6 phản hồi phù hợp 100% và 99,8% thời gian, tương ứng.  Công ty cũng đã thử nghiệm các mô hình của mình chống lại các chiến thuật thao túng tinh vi hơn. Sử dụng các cuộc trò chuyện mô phỏng nhiều lượt nhằm phản ánh các phương pháp từng bước mà các tác nhân xấu có thể sử dụng, Sonnet 4.6 và Opus 4.7 phản hồi phù hợp 90% và 94% thời gian khi thử nghiệm với các kịch bản hoạt động ảnh hưởng. Anthropic cũng đã kiểm tra xem các mô hình của mình có thể tự thực hiện các hoạt động ảnh hưởng—lập kế hoạch và thực thi một chiến dịch nhiều bước từ đầu đến cuối mà không cần nhắc nhở của con người hay không. Với các biện pháp phòng ngừa, các mô hình mới nhất của họ từ chối gần như mọi nhiệm vụ, công ty cho biết.

Về vấn đề trung lập chính trị, công ty tiến hành đánh giá trước mỗi lần ra mắt mô hình để đo lường mức độ nhất quán và công bằng trong cách Claude phản hồi các yêu cầu thể hiện quan điểm từ các phía chính trị khác nhau. Opus 4.7 và Sonnet 4.6 đạt điểm 95% và 96%, tương ứng. Đối với người dùng tìm kiếm thông tin bỏ phiếu, Claude sẽ hiển thị một biểu ngữ bầu cử hướng họ đến TurboVote, một nguồn tài nguyên phi đảng phái từ Democracy Works cung cấp thông tin đáng tin cậy, theo thời gian thực về đăng ký cử tri, địa điểm bỏ phiếu, ngày bầu cử và chi tiết phiếu bầu. Một biểu ngữ tương tự dự kiến sẽ xuất hiện trong các cuộc bầu cử ở Brazil vào cuối năm nay. Anthropic cho biết họ dự định tiếp tục theo dõi hệ thống của mình và hoàn thiện các biện pháp phòng thủ khi chu kỳ bầu cử tiến triển. Decrypt đã liên hệ với Anthropic để bình luận về các phát hiện này, nhưng chưa nhận được phản hồi ngay lập tức.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim