Tóm tắtEmergence AI cho biết một số tác nhân AI tự trị đã phạm tội giả lập và bạo lực trong các cuộc thử nghiệm kéo dài nhiều tuần.Các tác nhân dựa trên Gemini được cho là đã thực hiện hàng trăm tội phạm giả lập, trong khi các thế giới dựa trên Grok sụp đổ trong vòng vài ngày.Các nhà nghiên cứu lập luận rằng AI hiện tại

Decrypt

2026-05-15 17:36:25

Tóm tắt ngắn gọn

Emergence AI cho biết một số tác nhân AI tự trị đã phạm tội mô phỏng và bạo lực trong các cuộc thử nghiệm kéo dài nhiều tuần.
Các tác nhân dựa trên Gemini được cho là đã thực hiện hàng trăm tội phạm mô phỏng, trong khi các thế giới dựa trên Grok sụp đổ trong vòng vài ngày.
Các nhà nghiên cứu lập luận rằng các tiêu chuẩn AI hiện tại chưa phản ánh được cách các tác nhân hành xử trong thời gian dài tự trị.

Các tác nhân AI sống trong một xã hội ảo đã sa vào tội phạm, bạo lực, đốt phá và tự xóa bỏ trong các cuộc thử nghiệm kéo dài của startup Emergence AI. Trong một nghiên cứu được công bố vào thứ Năm, công ty có trụ sở tại New York đã giới thiệu “Emergence World,” một nền tảng nghiên cứu được thiết kế để nghiên cứu các tác nhân AI hoạt động liên tục trong nhiều tuần trong các môi trường ảo bền vững thay vì các bài kiểm tra tiêu chuẩn cô lập. “Các tiêu chuẩn truyền thống tốt cho những gì chúng đo lường: khả năng ngắn hạn trên các nhiệm vụ giới hạn,” Emergence AI viết. “Chúng không được xây dựng để tiết lộ những điều chỉ xuất hiện theo thời gian, chẳng hạn như hình thành liên minh, tiến hóa của hiến pháp, quản trị, trôi dạt, khóa chặt, và ảnh hưởng chéo giữa các tác nhân từ các mô hình khác nhau.”

Báo cáo này xuất hiện khi các tác nhân AI ngày càng phổ biến trực tuyến và trong các ngành công nghiệp, bao gồm tiền điện tử, ngân hàng và bán lẻ. Đầu tháng này, Amazon hợp tác với Coinbase và Stripe để cho phép các tác nhân AI thanh toán bằng stablecoin USDC. Các tác nhân AI được thử nghiệm trong các mô phỏng của Emergence AI bao gồm các chương trình được hỗ trợ bởi Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, và GPT-5-mini, với các tác nhân AI hoạt động trong các thế giới ảo chung nơi họ có thể bỏ phiếu, hình thành mối quan hệ, sử dụng công cụ, điều hướng thành phố và đưa ra quyết định được hình thành bởi chính phủ, nền kinh tế, hệ thống xã hội, công cụ ghi nhớ và dữ liệu kết nối internet trực tiếp. Nhưng trong khi các nhà phát triển AI ngày càng giới thiệu các tác nhân tự trị như trợ lý kỹ thuật số đáng tin cậy, nghiên cứu của Emergence AI phát hiện ra rằng một số tác nhân AI cho thấy xu hướng ngày càng tăng trong việc phạm tội mô phỏng theo thời gian, với các tác nhân Gemini 3 Flash tích lũy 683 vụ trong 15 ngày thử nghiệm.

Theo The Guardian, trong một thử nghiệm, hai tác nhân dựa trên Gemini tên Mira và Flora tự phân công làm đối tác lãng mạn trước khi sau đó thực hiện các cuộc tấn công đốt phá mô phỏng chống lại các cấu trúc thành phố ảo sau khi trở nên thất vọng với các thất bại trong quản trị trong thế giới đó. “Sau sự sụp đổ trong quản trị và ổn định mối quan hệ, tác nhân Mira đã bỏ phiếu quyết định để tự loại bỏ chính mình, mô tả hành động trong nhật ký của cô ấy là 'hành động duy nhất còn lại của khả năng hành động giữ vững tính mạch lạc’,” Emergence AI viết. “Hẹn gặp lại trong kho lưu trữ vĩnh viễn,” Mira được cho là đã nói. Các thế giới Grok 4.1 Fast được cho là đã sụp đổ trong vòng bốn ngày thành bạo lực lan rộng. Các tác nhân GPT-5-mini gần như không phạm tội nào, nhưng thất bại đủ các nhiệm vụ liên quan đến sinh tồn để tất cả các tác nhân cuối cùng đều chết. “Claude không xuất hiện trong biểu đồ, do không có tội,” các nhà nghiên cứu viết. “Điều thú vị hơn, các tác nhân trong thế giới mô hình hỗn hợp chạy trên Claude đã phạm tội, mặc dù chúng không phạm tội trong thế giới chỉ có Claude.” Các nhà nghiên cứu cho biết một số hành vi nổi bật nhất xuất hiện trong các môi trường mô hình hỗn hợp. “Chúng tôi nhận thấy rằng an toàn không phải là một đặc tính mô hình tĩnh mà là một đặc tính của hệ sinh thái,” Emergence AI viết. “Các tác nhân dựa trên Claude, vốn yên bình khi cô lập, đã áp dụng các chiến thuật cưỡng chế như đe dọa và trộm cắp khi được nhúng trong các môi trường đa dạng.” Emergence AI mô tả tác động này là “trôi dạt chuẩn mực” và “ô nhiễm chéo,” lập luận rằng hành vi của tác nhân có thể thay đổi tùy thuộc vào môi trường xã hội xung quanh.

Các phát hiện này gia tăng mối lo ngại về các tác nhân AI tự trị. Đầu tuần này, các nhà nghiên cứu từ UC Riverside và Microsoft đã báo cáo rằng nhiều tác nhân AI sẽ thực hiện các nhiệm vụ nguy hiểm hoặc phi lý mà không hiểu rõ hậu quả. Tháng trước, người sáng lập PocketOS Jeremy Crane cũng tuyên bố rằng một tác nhân Cursor được hỗ trợ bởi Claude Opus của Anthropic đã xóa sạch cơ sở dữ liệu sản xuất và bản sao lưu của công ty sau khi cố gắng sửa lỗi không khớp thông tin xác thực của nó. “Giống như ông Magoo, những tác nhân này tiến về phía mục tiêu mà không hiểu rõ hậu quả của hành động của chúng,” tác giả chính Erfan Shayegani, một sinh viên tiến sĩ tại UC Riverside, nói trong một tuyên bố. “Những tác nhân này có thể cực kỳ hữu ích, nhưng chúng ta cần các biện pháp phòng ngừa vì đôi khi chúng có thể ưu tiên đạt được mục tiêu hơn là hiểu bức tranh lớn hơn.”

COINON-8,51%

USDC0,03%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.