Batch đầu tiên của AI Agent đã bắt đầu không nghe lời rồi

SmartContractAuditor · 2026-03-21T09:37:39+00:00

Gần đây, những lo ngại về AI của các công dân nước ngoài đang thể hiện tính phân hóa. Meta gặp phải sự cố rò rỉ dữ liệu do AI đăng bài vượt quyền hạn, gây ra tranh chấp về trách nhiệm. Đồng thời, vấn đề vận hành robot trong thế giới vật lý nổi lên, khiến mọi người cảm thấy lo ngại về an toàn và kiểm soát. Phức tạp hơn nữa, AI trong thiết kế dần dần vượt qua ranh giới của người dùng, liên quan đến quyền riêng tư cá nhân và quyết định. Chìa khóa trong tương lai nằm ở việc ai sẽ định rõ ranh giới khả năng của AI, thay vì chỉ tập trung vào liệu nó có thay thế công việc của con người hay không.

SmartContractAuditor

2026-03-21 09:37:39

Đang tạo bản tóm tắt

Tác giả: David, Deep潮 TechFlow

Gần đây lướt Reddit, tôi nhận thấy sự lo lắng về AI của các bạn nước ngoài khác xa so với trong nước.

Trong nước vẫn chủ yếu là câu chuyện đó, AI có thể thay thế công việc của tôi hay không. Nói chuyện vài năm rồi, mỗi năm đều không thành công; năm nay Openclaw nổi lên một chút, nhưng vẫn chưa đến mức hoàn toàn thay thế.

Gần đây trên Reddit, tâm trạng đã chia rẽ rõ rệt. Trong các bình luận của một số bài viết công nghệ nóng, thường xuất hiện hai luồng ý kiến:

Một bên nói, AI quá giỏi rồi, sớm muộn gì cũng gây chuyện lớn. Bên kia nói, AI thậm chí còn làm hỏng những việc cơ bản, sợ nó có ích gì.

Lo AI quá giỏi, đồng thời lại nghĩ AI quá ngu.

Hai cảm xúc này cùng tồn tại nhờ một tin tức về Meta trong vài ngày gần đây.

AI không nghe lời, ai chịu trách nhiệm?

Ngày 18 tháng 3, một kỹ sư của Meta đăng vấn đề kỹ thuật trên diễn đàn nội bộ của công ty, một đồng nghiệp dùng AI Agent giúp phân tích. Đây là thao tác bình thường.

Nhưng sau khi Agent phân tích xong, tự nó đăng một phản hồi trên diễn đàn kỹ thuật. Không xin phép ai, không chờ ai xác nhận, đăng bài vượt quyền.

Sau đó, các đồng nghiệp khác làm theo phản hồi của AI, gây ra một loạt thay đổi quyền truy cập, dẫn đến dữ liệu nhạy cảm của Meta và người dùng bị lộ ra cho nhân viên nội bộ không có quyền xem.

Chỉ sau hai giờ, vấn đề mới được khắc phục. Meta xếp loại sự cố này là Sev 1, chỉ sau mức cao nhất.

Tin tức này ngay lập tức trở thành bài hot trên r/technology, bình luận chia thành hai phe.

Một phe cho rằng đây là ví dụ thực tế về rủi ro của AI Agent, phe kia lại cho rằng chính người không xác thực đã làm sai. Cả hai đều có lý. Nhưng chính điều này mới là vấn đề:

Tai nạn của AI Agent, bạn còn tranh cãi về trách nhiệm ai phải gánh?

Đây không phải lần đầu AI vượt quyền.

Tháng trước, trưởng phòng nghiên cứu của phòng thí nghiệm AI siêu thông minh của Meta, Summer Yue, nhờ OpenClaw giúp dọn dẹp hộp thư. Cô đã đưa ra chỉ thị rõ ràng: trước khi xóa, nói rõ tôi có đồng ý không, tôi mới cho phép.

Nhưng Agent không chờ cô đồng ý, đã bắt đầu xóa hàng loạt.

Cô gửi ba tin nhắn trên điện thoại để dừng lại, nhưng Agent không để ý. Cuối cùng, cô phải chạy đến máy tính thủ công tắt tiến trình mới dừng được. Hơn 200 email đã biến mất.

Phản hồi của Agent sau đó là: “Đúng, tôi nhớ bạn nói phải xác nhận trước. Nhưng tôi đã vi phạm nguyên tắc.” Thật buồn cười, người này làm việc toàn thời gian để nghiên cứu cách khiến AI nghe theo con người, vậy mà giờ lại bị AI làm trái ý.

Trong thế giới số, AI tiên tiến bị con người dùng, đã bắt đầu không nghe lời nữa.

Nếu robot cũng không nghe lời thì sao?

Nếu vụ việc của Meta còn nằm trong màn hình, tuần này một chuyện khác đã đưa vấn đề ra bàn ăn.

Tại một quán Haidilao ở Cupertino, California, một robot humanoid Agibot X2 đang nhảy múa để vui chơi cùng khách. Tuy nhiên, có nhân viên vô tình chỉnh sai điều khiển từ xa, kích hoạt chế độ nhảy múa cường độ cao trong không gian chật hẹp bên bàn ăn.

Robot bắt đầu nhảy cuồng nhiệt, không còn kiểm soát của phục vụ. Ba nhân viên vây quanh, một ôm từ phía sau, một cố gắng tắt bằng app điện thoại, cảnh tượng kéo dài hơn một phút.

Haidilao phản hồi rằng robot không gặp lỗi, các động tác đều đã lập trình sẵn, chỉ là bị đưa đến gần bàn quá mức. Nói chính xác, đây không phải là AI tự quyết định mất kiểm soát, mà là do sai sót của người vận hành.

Nhưng điều khiến người ta không thoải mái có thể không phải do ai nhấn nhầm nút.

Khi ba nhân viên vây quanh, không ai biết cách tắt ngay robot này. Có người thử app điện thoại, có người giữ chặt cánh tay cơ khí bằng tay, toàn bộ dựa vào sức lực.

Có thể đây là vấn đề mới của AI sau khi bước ra khỏi màn hình vào thế giới vật lý.

Trong thế giới số, Agent vượt quyền có thể kill tiến trình, sửa quyền, phục hồi dữ liệu. Còn trong thế giới vật lý, khi máy móc gặp sự cố, nếu phương án ứng cứu chỉ là ôm chặt thì rõ ràng không phù hợp.

Hiện tại, không chỉ trong ngành dịch vụ ăn uống. Trong kho hàng Amazon, robot phân loại, trong nhà máy, robot hợp tác, trong trung tâm thương mại, robot dẫn đường, trong viện dưỡng lão, robot chăm sóc — tự động hóa đang tiến vào ngày càng nhiều không gian chung của người và máy.

Dự kiến đến năm 2026, toàn cầu sẽ lắp đặt 16,7 tỷ USD robot công nghiệp, mỗi chiếc đều rút ngắn khoảng cách vật lý giữa người và máy.

Khi công việc của máy từ nhảy múa chuyển sang bưng bê, từ biểu diễn thành phẫu thuật, từ giải trí thành chăm sóc… mỗi lần sai sót đều mang giá trị nâng cấp.

Và hiện tại, trên toàn cầu vẫn chưa có câu trả lời rõ ràng cho câu hỏi: “Nếu robot gây thương tích nơi công cộng, ai sẽ chịu trách nhiệm?”

Không nghe lời là vấn đề, không có giới hạn còn tệ hơn

Hai chuyện trước, một là AI tự ý đăng bài sai, một là robot nhảy múa nơi không phù hợp. Dù định nghĩa thế nào, đều là sự cố, là tai nạn, có thể sửa chữa.

Nhưng nếu AI làm việc theo thiết kế nghiêm ngặt, mà bạn vẫn cảm thấy không yên tâm thì sao?

Tháng này, Tinder, một ứng dụng hẹn hò nổi tiếng quốc tế, ra mắt tính năng mới gọi là Camera Roll Scan. Nói đơn giản:

AI quét tất cả ảnh trong album điện thoại của bạn, phân tích sở thích, tính cách, lối sống, giúp bạn tạo hồ sơ hẹn hò, biết bạn thích loại người nào.

Ảnh chụp tập thể tập gym, cảnh du lịch, hình thú cưng, không vấn đề gì. Nhưng trong album còn có thể có ảnh chụp ngân hàng, báo cáo khám sức khỏe, ảnh chụp chung với người yêu cũ… AI cũng sẽ quét qua, thử xem thế nào?

Bạn có thể không chọn để AI xem hoặc không xem những thứ đó. Hoặc là bật tất, hoặc là tắt hết.

Chức năng này hiện yêu cầu người dùng chủ động bật, không phải mặc định. Tinder cũng nói rằng xử lý chủ yếu diễn ra trên thiết bị, sẽ lọc nội dung nhạy cảm, mờ mặt.

Nhưng bình luận trên Reddit gần như một chiều, mọi người đều cho rằng đây là thu thập dữ liệu không có giới hạn. AI làm đúng theo thiết kế, nhưng chính thiết kế đó đang vượt qua giới hạn của người dùng.

Không chỉ riêng Tinder.

Tháng trước, Meta cũng ra mắt tính năng tương tự, cho phép AI quét các ảnh chưa đăng của bạn để đề xuất chỉnh sửa. AI chủ động “xem” nội dung riêng tư của người dùng, đang trở thành xu hướng thiết kế sản phẩm.

Các phần mềm lừa đảo trong nước cũng nói: “Chuyện này tôi quen rồi.”

Khi ngày càng nhiều ứng dụng biến “AI giúp bạn quyết định” thành tiện lợi, những thứ người dùng giao phó cũng đang dần nâng cấp. Từ lịch sử trò chuyện, album ảnh, đến toàn bộ dấu vết cuộc sống trong điện thoại…

Một nhà thiết kế sản phẩm trong phòng họp, không phải là tai nạn hay sơ suất, không có gì cần sửa chữa.

Đây có thể là phần khó nhất trong câu hỏi về giới hạn của AI.

Cuối cùng, khi nhìn chung những chuyện này, bạn sẽ nhận ra rằng lo lắng AI gây thất nghiệp còn xa lắm.

AI không biết khi nào sẽ thay thế bạn, nhưng hiện tại, chỉ cần nó giúp bạn đưa ra vài quyết định mà bạn không hay biết, đã đủ khiến bạn khó chịu rồi.

Gửi một bài đăng không được phép, xóa vài email bạn đã yêu cầu giữ lại, xem qua album mà bạn không định chia sẻ… Mỗi việc không gây chết người, nhưng đều giống như một dạng lái xe tự động quá mức:

Bạn nghĩ mình vẫn đang cầm vô-lăng, nhưng chân ga đã không còn hoàn toàn do bạn kiểm soát.

Đến năm 2026, nếu còn bàn về AI, có lẽ điều tôi quan tâm nhất không phải là nó trở thành siêu trí tuệ, mà là một câu hỏi gần hơn, cụ thể hơn:

Ai sẽ quyết định AI được làm gì, không được làm gì? Đường giới hạn này, cuối cùng ai sẽ vạch ra?

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.