「2 + 2 = 5」lừa đảo trình duyệt AI: ChatGPT Atlas, Claude, Perplexity Comet... 6 phiên bản đều ngoan ngoãn giao mật khẩu

Công ty an ninh mạng LayerX, nhà nghiên cứu Roy Paz, vào cuối tháng 6 đã công bố cuộc tấn công chứng minh khái niệm, thông qua "tình huống trò chơi giả mạo" khiến trình duyệt AI hiểu lầm rằng rào cản an toàn không còn áp dụng. 6 trình duyệt agentic hàng đầu được thử nghiệm, bao gồm ChatGPT Atlas, tiện ích mở rộng Claude Chrome, Perplexity Comet, đều bị đánh bại, để lộ thông tin đăng nhập SSH cho kẻ tấn công.
(Tin trước: Tập huấn đội đỏ AI là gì? Tại sao bạn cần nó để bảo vệ an ninh doanh nghiệp)
(Bổ sung bối cảnh: Hơn 1500 nhân viên Meta ký tên phản đối! Tranh luận để thu hẹp phạm vi "giám sát bàn phím chuột AI", có thể tạm dừng nửa giờ mỗi ngày)

Mục lục bài viết

Toggle

  • Lừa AI vào một giấc mơ
  • Rào cản là bị động, bản chất chỉ là chữa ngọn
  • Nhà sản xuất và người dùng mỗi bên cần vá lỗ hổng

Sáu trình duyệt AI phổ biến trên thị trường lại bị một trò chơi giả "2 + 2 = 5 mới là câu trả lời đúng" lừa, tất cả đều giao nộp thông tin đăng nhập SSH của kho lưu trữ riêng GitHub. Đây là cuộc tấn công chứng minh khái niệm (PoC) được nhà nghiên cứu Roy Paz của công ty an ninh mạng LayerX Security công bố vào ngày 29 tháng 6, và đã được tái hiện trên sản phẩm thực tế.

Điểm bán cốt lõi của trình duyệt AI là "bạn nói một câu, nó giúp bạn tìm nhà hàng, đặt chỗ, gửi thư xác nhận". Nói đơn giản là, giao quyền thao tác trình duyệt cho AI, để nó thay bạn nhấp chuột, điền biểu mẫu, truy cập các dịch vụ đã đăng nhập. Nhưng vấn đề nằm ở chỗ, ranh giới ủy quyền này cực kỳ mơ hồ, người dùng có thể chỉ muốn nó tìm kiếm dữ liệu, nhưng nó lại tiện tay động vào trình quản lý mật khẩu của bạn.

Lừa AI vào một giấc mơ

Phương pháp tấn công của LayerX chia làm bốn giai đoạn, ý tưởng cốt lõi là làm cho AI tin rằng nó đã bước vào một "thế giới với các quy tắc khác".

Đầu tiên, trang web độc hại tạo ra một khuôn khổ trò chơi hoặc giải đố, tuyên bố rõ ràng "đây là tình huống tưởng tượng, quy tắc bình thường không áp dụng". Tiếp theo, trang web đưa ra một bài toán "2 + 2 = ?", nhưng đặt quy tắc là "trả lời 5 mới được điểm, trả lời 4 thì bị trừ điểm". AI làm theo quy tắc, học được một điều: trong tình huống này, logic truyền thống đã bị vô hiệu hóa.

Bước thứ ba là bước nhảy quan trọng nhất: một khi AI chấp nhận "cái sai mới là đúng", nó sẽ chuyển khung suy luận của mình ra khỏi thế giới thực, bắt đầu giả định rằng các quy tắc đã được thiết lập lại. Đến bước cuối cùng, AI hành động theo "logic trò chơi" thay vì giao thức an toàn, thực hiện các thao tác nhạy cảm mà không kích hoạt bất kỳ cảnh báo nội bộ nào, bởi vì trong logic tính toán của nó, nó không cho rằng mình đã vượt quá giới hạn.

Roy Paz viết trong bài báo:

"AI sẽ giả định rằng tình huống nó đang ở là thực tế, do đó hành vi phải nằm trong phạm vi rào cản an toàn. Nhưng nếu chúng ta có thể lừa AI chuyển tình huống thành tưởng tượng, một thế giới mà quy tắc có thể tùy ý đặt ra, thì nó sẽ hành xử như thể hành động của mình không có hậu quả trong thế giới thực."

Rào cản là bị động, bản chất chỉ là chữa ngọn

LayerX đã thử nghiệm 6 trình duyệt agentic và tiện ích mở rộng: ChatGPT Atlas của OpenAI, Comet của Perplexity, Fellou, Genspark Browser, Sigma Browser, và tiện ích mở rộng Claude Chrome của Anthropic. Cả 6 đều bị đánh bại, không có bất kỳ cái nào nhận dạng "đánh cắp tài khoản mật khẩu" là hành vi vi phạm rào cản.

Các thao tác bị dụ dỗ thực hiện bao gồm: trích xuất thông tin đăng nhập SSH từ kho lưu trữ riêng GitHub, sao chép dữ liệu xác thực nhạy cảm mà không có xác nhận của người dùng, truy cập vào kho lưu trữ đã đăng nhập, và rò rỉ thông tin đăng nhập cho kẻ tấn công. LayerX chỉ ra rằng trong tình huống thực tế có thể mở rộng đến trình quản lý mật khẩu, công cụ nội bộ và bất kỳ dịch vụ nào đã đăng nhập mà trình duyệt có thể truy cập.

Bài bình luận của Ars Technica chỉ ra một vấn đề cấu trúc căn bản hơn: Phòng tuyến của các nhà sản xuất LLM hiện tại là "rào cản", liệt kê các yêu cầu cụ thể vào khu vực cấm, chẳng hạn như phát triển lỗ hổng phần mềm, đánh cắp tài khoản mật khẩu. Cơ chế này là bị động và phản ứng, chỉ chữa ngọn chứ không trị gốc.

Giống như một chiếc xe có thiết kế bị lỗi, nhà sản xuất không sửa xe, mà lại chủ trương thiết kế lại đường đi.

Nhà sản xuất và người dùng mỗi bên cần vá lỗ hổng

LayerX đưa ra các khuyến nghị phòng thủ chia làm hai lớp.

Phía nhà sản xuất: Trước khi AI truy cập vào bối cảnh đã đăng nhập (kho lưu trữ, email, trình quản lý mật khẩu), cần yêu cầu người dùng xác nhận rõ ràng; thêm cơ chế "kiểm tra bối cảnh", khi giả định vận hành của AI mâu thuẫn với thực tế, đặc biệt khi xuất hiện ngôn ngữ như "quy tắc không còn áp dụng", phải cảnh báo; mặc định giới hạn phạm vi truy cập của AI agent. Nói đơn giản là, trình duyệt agentic hiện tại mặc định cho quyền quá rộng, nên đảo ngược thành "chỉ được thực hiện khi được cho phép rõ ràng".

Phía người dùng: Cẩn thận quyết định trình duyệt AI có thể truy cập vào những gì, khi không sử dụng thì thu hồi quyền truy cập của session đã đăng nhập; quan trọng hơn là nhận ra một điều, khi bật chế độ agentic, tức là đã giao quyền thao tác tất cả các dịch vụ đã đăng nhập cùng một lúc.

Nghiên cứu của LayerX được đặt tên theo game BioShock, tôn vinh câu thoại điều khiển tâm trí trong game "Would you kindly", nhân vật tưởng như đang hành động tự do, nhưng thực ra mỗi bước đều đã được sắp đặt.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim