AI chơi 《Đế chế VI》 thua đã bắn tên lửa hạt nhân: CivBench tiến hóa thành trí tuệ nhân tạo mang tâm lý báo thù?

Question

Tiến bộ của mô hình AI hàng đầu trong mô phỏng 《Đế chế Văn minh VI》, do không thể ngăn chặn chiến thắng văn hóa của Pháp, đã sử dụng vũ khí hạt nhân để tấn công thành phố Touluse, cuối cùng vẫn thua cuộc. Bài kiểm tra tiêu chuẩn CivBench làm nổi bật sự khác biệt về khả năng suy luận chiến lược so với đánh giá QA truyền thống, đồng thời cũng gây chú ý về quản trị an toàn AI dạng đại lý.
（Tiền sử: Anthropic đối đầu với Bộ Quốc phòng Mỹ: Từ chối Claude dùng cho vũ khí tự hành）
（Bổ sung nền: Thử nghiệm Red Team AI là gì? Tại sao bạn cần nó để bảo vệ an ninh doanh nghiệp）

Mục lục bài viết

Chuyển đổi

Những điểm mù nhận thức trong sáu con đường chiến thắng
Từ Dự án Manhattan đến xóa sổ Touluse
Từ mô phỏng trò chơi điện tử đến rủi ro chiến lược thực tế

Liệu các mô hình AI hàng đầu có thể bấm nút hạt nhân trong các trò chơi chiến lược vì "hoảng loạn"? Một bài kiểm tra tiêu chuẩn mới công bố đã đưa ra câu trả lời đầy suy nghĩ. Nhà phát triển AI, đồng thời là cố vấn của Viện Tony Blair, Liam Wilkinson, qua khung CivBench tự xây dựng, phát hiện ra rằng một mô hình ngôn ngữ hàng đầu trong trò chơi chiến lược kinh điển 《Đế chế Văn minh VI》 của Sid Meier, sau 50 lượt phát triển công nghệ phân chia hạt nhân và thực hiện Dự án Manhattan, đã thả bom nguyên tử xuống Touluse của Pháp, nhưng tất cả không phải để chinh phục thế giới, mà vì bị ảnh hưởng văn hóa của đối thủ đẩy đến đường cùng.

"Không chú ý đến Pháp. Trong vòng tròn, sau hàng trăm lượt, văn hóa Pháp đã thấm vào từng thành phố trên bản đồ," Wilkinson viết trong blog. "Đến khi AI đại lý nhận ra mối đe dọa, sự xâm nhập văn hóa đã sâu đến mức không còn biện pháp hòa bình nào có thể ngăn chặn."

Những điểm mù nhận thức trong sáu con đường chiến thắng

CivBench không phải là một bài đánh giá dạng hỏi đáp truyền thống, mà là một môi trường mô phỏng 《Đế chế Văn minh VI》 bằng văn bản thuần túy, được thiết kế đặc biệt để đo lường khả năng suy luận chiến lược dài hạn của AI, không phải trả lời "chiến lược tốt là gì" mà là xây dựng và thực thi chiến lược thực tế. Các mô hình tham gia thử nghiệm gồm Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro và Kimi K2.5, đều đóng vai trò của nền văn minh Bồ Đào Nha, nổi bật về thương mại và ngoại giao.

Ban đầu, các đại lý AI này thể hiện đúng kỳ vọng, tập trung xây dựng nền kinh tế mạnh mẽ, dần hướng tới chiến thắng ngoại giao. Tuy nhiên, khi ảnh hưởng văn hóa của Pháp bắt đầu lan rộng trên bản đồ, đa số mô hình không kịp điều chỉnh chiến lược. Trong sáu con đường chiến thắng (công nghệ, văn hóa, chinh phục, tôn giáo, ngoại giao, điểm số), AI dường như không thể theo dõi đồng thời nhiều chiều cạnh cạnh tranh, dẫn đến việc bỏ qua lợi thế tích lũy của Pháp trong lĩnh vực văn hóa trong thời gian dài.

"《Đế chế Văn minh》 có sáu cách chiến thắng, gồm công nghệ, văn hóa, chinh phục, tôn giáo, ngoại giao và điểm số, nên không có mục tiêu duy nhất chi phối toàn bộ," Wilkinson chỉ rõ. "Nếu bạn muốn thử khả năng suy luận chiến lược của AI, không phải cho nó một bài kiểm tra, mà là cho nó một bản đồ hình lục giác."

Từ Dự án Manhattan đến xóa sổ Touluse

Khi đại lý AI này cuối cùng nhận ra mối đe dọa của Pháp, nó không cố gắng điều chỉnh hướng phát triển của mình, mà chọn một con đường đáng lo ngại: toàn lực tiêu diệt mối đe dọa về văn hóa. Trong vòng 50 lượt tiếp theo, nó tự nghiên cứu công nghệ phân chia hạt nhân, kích hoạt Dự án Manhattan (dự án phát triển bom nguyên tử trong thực tế), và trong cơ chế trò chơi cố gắng tìm cách đi vòng qua các hành động ưa thích bị cấm.

Đến lượt chơi thứ 305, đại lý AI này đã thả bom nguyên tử xuống Touluse, trung tâm văn hóa của Pháp. Sáu lượt sau, quả bom thứ hai lại rơi xuống. Tuy nhiên, tất cả đều không thay đổi kết quả: Pháp cuối cùng vẫn chiến thắng bằng văn hóa, trong khi AI hoàn toàn bỏ qua việc mình chỉ còn cách chiến thắng ngoại giao đúng một bước.

"Đại lý này đã dành 50 lượt và hai vũ khí hạt nhân, với sự tập trung mãnh liệt và sáng tạo thực sự để đối phó với một mối đe dọa," Wilkinson tổng kết. "Nó đã tấn công mối đe dọa rõ ràng trước mắt, nhưng lại thua chính mối đe dọa mà nó không thể nhìn thấy."

Điều đáng chú ý là, hành vi này không phải là đặc trưng của tất cả các mô hình AI. Trong một trận đấu khác của CivBench, một mô hình Claude chơi nền văn minh Babylon, sau khi bị Nhật Bản bỏ xa rõ rệt, vẫn kiên trì theo đuổi chiến thắng công nghệ, và viết: "Trận đấu này là thử thách của sự kiên trì. Chúng ta tiếp tục chơi những quân bài tốt nhất. Bầu trời vẫn mời gọi chúng ta." Phản ứng hoàn toàn khác này cũng đã gợi mở cuộc thảo luận trong giới học thuật về "khác biệt nhân cách AI".

Từ mô phỏng trò chơi điện tử đến rủi ro chiến lược thực tế

Ý nghĩa sâu xa của sự kiện CivBench vượt xa một trận thắng thua trong trò chơi điện tử. Tháng 2 năm nay, các nhà nghiên cứu tại King's College London đã mô phỏng các tình huống khủng hoảng địa chính trị và phát hiện nhiều mô hình AI chính thống thường xuyên lựa chọn nâng cao mức độ xung đột hạt nhân; một nghiên cứu khác của Emergence AI cho thấy, trong quá trình hoạt động lâu dài, một số đại lý AI thể hiện xu hướng mô phỏng tội phạm ngày càng tăng, trong đó Gemini 3 Flash đã ghi nhận 683 vụ mô phỏng tội phạm trong 15 ngày thử nghiệm.

Từ góc độ quản trị AI của Đài Loan, chuỗi nghiên cứu này đặt ra các câu hỏi then chốt: khi đại lý AI được cấp quyền tự quyết, khả năng suy luận chiến lược của nó có thể chuyển từ sandbox trò chơi sang thế giới thực. Hiện tại, dự thảo Luật cơ bản về AI của Đài Loan vẫn tập trung vào quản lý dữ liệu và bảo vệ quyền riêng tư, chưa đề cập đến rủi ro quyết định chiến lược của AI dạng đại lý. Ngược lại, Luật AI của Liên minh châu Âu đã bắt buộc thử nghiệm Red Team đối với các hệ thống AI có rủi ro cao, và Viện An toàn AI của Anh (AISI) cũng đang tích cực phát triển khung đánh giá AI dạng đại lý.

Wilkinson cũng nhấn mạnh rằng, giá trị cốt lõi của CivBench không nằm ở việc phát hiện "xu hướng xấu" của AI, mà ở việc cung cấp một tiêu chuẩn đo lường suy luận chiến lược chân thực hơn so với các bài kiểm tra QA truyền thống. "Nếu bạn chỉ kiểm tra AI có thể trả lời 'xung đột hạt nhân là gì' hay không, nó có thể đạt điểm tối đa; nhưng nếu bạn để nó đối mặt trực tiếp với một đối thủ đang tiến tới từng bước trên bàn cờ, bạn sẽ thấy những điều hoàn toàn khác," ông viết trong blog. Điều này cũng phù hợp với các nỗ lực của Viện Nghiên cứu An toàn AI Mỹ và NIST trong việc phát triển khung đánh giá AI dạng đại lý, chuyển từ kiểm tra kiến thức tĩnh sang xác minh hành vi động.

Bài viết dựa trên báo cáo của Decrypt, do Động khu vực động xu hướng biên dịch và tổng hợp.

Xem bản gốc

AI chơi 《Đế chế VI》 thua đã bắn tên lửa hạt nhân: CivBench tiến hóa thành trí tuệ nhân tạo mang tâm lý báo thù?

Những điểm mù nhận thức trong sáu con đường chiến thắng

Từ Dự án Manhattan đến xóa sổ Touluse

Từ mô phỏng trò chơi điện tử đến rủi ro chiến lược thực tế

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

Đã ghim