Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Cổ phiếu Hàn Quốc
SK Hynix
Giao dịch cổ phiếu Hàn Quốc thực và đầu tư vào các tài sản phổ biến
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
AI chơi 《Đế chế VI》 thua đã bắn tên lửa hạt nhân: CivBench tiến hóa thành trí tuệ nhân tạo mang tâm lý báo thù?
Tiến bộ của mô hình AI hàng đầu trong mô phỏng 《Đế chế Văn minh VI》, do không thể ngăn chặn chiến thắng văn hóa của Pháp, đã sử dụng vũ khí hạt nhân để tấn công thành phố Touluse, cuối cùng vẫn thua cuộc. Bài kiểm tra tiêu chuẩn CivBench làm nổi bật sự khác biệt về khả năng suy luận chiến lược so với đánh giá QA truyền thống, đồng thời cũng gây chú ý về quản trị an toàn AI dạng đại lý.
(Tiền sử: Anthropic đối đầu với Bộ Quốc phòng Mỹ: Từ chối Claude dùng cho vũ khí tự hành)
(Bổ sung nền: Thử nghiệm Red Team AI là gì? Tại sao bạn cần nó để bảo vệ an ninh doanh nghiệp)
Mục lục bài viết
Chuyển đổi
Liệu các mô hình AI hàng đầu có thể bấm nút hạt nhân trong các trò chơi chiến lược vì "hoảng loạn"? Một bài kiểm tra tiêu chuẩn mới công bố đã đưa ra câu trả lời đầy suy nghĩ. Nhà phát triển AI, đồng thời là cố vấn của Viện Tony Blair, Liam Wilkinson, qua khung CivBench tự xây dựng, phát hiện ra rằng một mô hình ngôn ngữ hàng đầu trong trò chơi chiến lược kinh điển 《Đế chế Văn minh VI》 của Sid Meier, sau 50 lượt phát triển công nghệ phân chia hạt nhân và thực hiện Dự án Manhattan, đã thả bom nguyên tử xuống Touluse của Pháp, nhưng tất cả không phải để chinh phục thế giới, mà vì bị ảnh hưởng văn hóa của đối thủ đẩy đến đường cùng.
"Không chú ý đến Pháp. Trong vòng tròn, sau hàng trăm lượt, văn hóa Pháp đã thấm vào từng thành phố trên bản đồ," Wilkinson viết trong blog. "Đến khi AI đại lý nhận ra mối đe dọa, sự xâm nhập văn hóa đã sâu đến mức không còn biện pháp hòa bình nào có thể ngăn chặn."
Những điểm mù nhận thức trong sáu con đường chiến thắng
CivBench không phải là một bài đánh giá dạng hỏi đáp truyền thống, mà là một môi trường mô phỏng 《Đế chế Văn minh VI》 bằng văn bản thuần túy, được thiết kế đặc biệt để đo lường khả năng suy luận chiến lược dài hạn của AI, không phải trả lời "chiến lược tốt là gì" mà là xây dựng và thực thi chiến lược thực tế. Các mô hình tham gia thử nghiệm gồm Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro và Kimi K2.5, đều đóng vai trò của nền văn minh Bồ Đào Nha, nổi bật về thương mại và ngoại giao.
Ban đầu, các đại lý AI này thể hiện đúng kỳ vọng, tập trung xây dựng nền kinh tế mạnh mẽ, dần hướng tới chiến thắng ngoại giao. Tuy nhiên, khi ảnh hưởng văn hóa của Pháp bắt đầu lan rộng trên bản đồ, đa số mô hình không kịp điều chỉnh chiến lược. Trong sáu con đường chiến thắng (công nghệ, văn hóa, chinh phục, tôn giáo, ngoại giao, điểm số), AI dường như không thể theo dõi đồng thời nhiều chiều cạnh cạnh tranh, dẫn đến việc bỏ qua lợi thế tích lũy của Pháp trong lĩnh vực văn hóa trong thời gian dài.
"《Đế chế Văn minh》 có sáu cách chiến thắng, gồm công nghệ, văn hóa, chinh phục, tôn giáo, ngoại giao và điểm số, nên không có mục tiêu duy nhất chi phối toàn bộ," Wilkinson chỉ rõ. "Nếu bạn muốn thử khả năng suy luận chiến lược của AI, không phải cho nó một bài kiểm tra, mà là cho nó một bản đồ hình lục giác."
Từ Dự án Manhattan đến xóa sổ Touluse
Khi đại lý AI này cuối cùng nhận ra mối đe dọa của Pháp, nó không cố gắng điều chỉnh hướng phát triển của mình, mà chọn một con đường đáng lo ngại: toàn lực tiêu diệt mối đe dọa về văn hóa. Trong vòng 50 lượt tiếp theo, nó tự nghiên cứu công nghệ phân chia hạt nhân, kích hoạt Dự án Manhattan (dự án phát triển bom nguyên tử trong thực tế), và trong cơ chế trò chơi cố gắng tìm cách đi vòng qua các hành động ưa thích bị cấm.
Đến lượt chơi thứ 305, đại lý AI này đã thả bom nguyên tử xuống Touluse, trung tâm văn hóa của Pháp. Sáu lượt sau, quả bom thứ hai lại rơi xuống. Tuy nhiên, tất cả đều không thay đổi kết quả: Pháp cuối cùng vẫn chiến thắng bằng văn hóa, trong khi AI hoàn toàn bỏ qua việc mình chỉ còn cách chiến thắng ngoại giao đúng một bước.
"Đại lý này đã dành 50 lượt và hai vũ khí hạt nhân, với sự tập trung mãnh liệt và sáng tạo thực sự để đối phó với một mối đe dọa," Wilkinson tổng kết. "Nó đã tấn công mối đe dọa rõ ràng trước mắt, nhưng lại thua chính mối đe dọa mà nó không thể nhìn thấy."
Điều đáng chú ý là, hành vi này không phải là đặc trưng của tất cả các mô hình AI. Trong một trận đấu khác của CivBench, một mô hình Claude chơi nền văn minh Babylon, sau khi bị Nhật Bản bỏ xa rõ rệt, vẫn kiên trì theo đuổi chiến thắng công nghệ, và viết: "Trận đấu này là thử thách của sự kiên trì. Chúng ta tiếp tục chơi những quân bài tốt nhất. Bầu trời vẫn mời gọi chúng ta." Phản ứng hoàn toàn khác này cũng đã gợi mở cuộc thảo luận trong giới học thuật về "khác biệt nhân cách AI".
Từ mô phỏng trò chơi điện tử đến rủi ro chiến lược thực tế
Ý nghĩa sâu xa của sự kiện CivBench vượt xa một trận thắng thua trong trò chơi điện tử. Tháng 2 năm nay, các nhà nghiên cứu tại King's College London đã mô phỏng các tình huống khủng hoảng địa chính trị và phát hiện nhiều mô hình AI chính thống thường xuyên lựa chọn nâng cao mức độ xung đột hạt nhân; một nghiên cứu khác của Emergence AI cho thấy, trong quá trình hoạt động lâu dài, một số đại lý AI thể hiện xu hướng mô phỏng tội phạm ngày càng tăng, trong đó Gemini 3 Flash đã ghi nhận 683 vụ mô phỏng tội phạm trong 15 ngày thử nghiệm.
Từ góc độ quản trị AI của Đài Loan, chuỗi nghiên cứu này đặt ra các câu hỏi then chốt: khi đại lý AI được cấp quyền tự quyết, khả năng suy luận chiến lược của nó có thể chuyển từ sandbox trò chơi sang thế giới thực. Hiện tại, dự thảo Luật cơ bản về AI của Đài Loan vẫn tập trung vào quản lý dữ liệu và bảo vệ quyền riêng tư, chưa đề cập đến rủi ro quyết định chiến lược của AI dạng đại lý. Ngược lại, Luật AI của Liên minh châu Âu đã bắt buộc thử nghiệm Red Team đối với các hệ thống AI có rủi ro cao, và Viện An toàn AI của Anh (AISI) cũng đang tích cực phát triển khung đánh giá AI dạng đại lý.
Wilkinson cũng nhấn mạnh rằng, giá trị cốt lõi của CivBench không nằm ở việc phát hiện "xu hướng xấu" của AI, mà ở việc cung cấp một tiêu chuẩn đo lường suy luận chiến lược chân thực hơn so với các bài kiểm tra QA truyền thống. "Nếu bạn chỉ kiểm tra AI có thể trả lời 'xung đột hạt nhân là gì' hay không, nó có thể đạt điểm tối đa; nhưng nếu bạn để nó đối mặt trực tiếp với một đối thủ đang tiến tới từng bước trên bàn cờ, bạn sẽ thấy những điều hoàn toàn khác," ông viết trong blog. Điều này cũng phù hợp với các nỗ lực của Viện Nghiên cứu An toàn AI Mỹ và NIST trong việc phát triển khung đánh giá AI dạng đại lý, chuyển từ kiểm tra kiến thức tĩnh sang xác minh hành vi động.
Bài viết dựa trên báo cáo của Decrypt, do Động khu vực động xu hướng biên dịch và tổng hợp.