Meta giám sát đào tạo nhân viên máy tính AI rò rỉ dữ liệu, chính thức khẩn cấp ngừng lại điều tra

Meta vào tháng 4 năm 2026 đã khởi động "Sáng kiến Năng lực Mô hình" (Model Capability Initiative), ghi lại chuyển động chuột, nhấp chuột và nhập phím trên máy tính của nhân viên tại Mỹ, nhằm huấn luyện mô hình AI của công ty.
Kế hoạch này bị tiết lộ do một vụ việc an ninh nội bộ: một nhân viên đã báo cáo một sự cố an ninh ưu tiên cao, chỉ ra dữ liệu bị rò rỉ bao gồm đầy đủ các câu lệnh hướng dẫn và bản ghi chép từng chữ, cuộc trò chuyện cá nhân, dữ liệu hiệu suất nhân viên, cùng với các mức độ nhạy cảm của dữ liệu nội bộ.
Meta tuyên bố tạm dừng kế hoạch để điều tra, nhấn mạnh hiện không có dấu hiệu cho thấy nhân viên truy cập dữ liệu trái phép.
(Tiền sử: Cựu quản lý cấp cao của Meta đưa ra lời khuyên về việc làm trong kỷ nguyên AI: kế hoạch nghề nghiệp mười năm đã lỗi thời, chỉ cần làm tốt hai việc này)
(Bổ sung bối cảnh: Danh sách thành viên nhóm bí mật Dialog của Peter Thiel bị rò rỉ, gồm Elon Musk, con rể của Trump, cựu CEO Google và các nhà sáng lập Silicon Valley khác, cùng Bộ trưởng Tài chính Mỹ)

Tháng 4 năm nay, Meta đã triển khai một phần mềm trên máy tính của nhân viên tại Mỹ. Tên kế hoạch là "Sáng kiến Năng lực Mô hình" (Model Capability Initiative - MCI), nhằm thu thập hành vi di chuyển chuột, nhấp chuột và nhập liệu của nhân viên để huấn luyện mô hình AI của Meta.

Sau đó, vụ việc bị phát hiện vì một nhân viên đã gửi báo cáo SEV (báo cáo sự cố an ninh ưu tiên cao), do phát hiện có dữ liệu bị rò rỉ.

kế hoạch này còn nghiêm trọng hơn cả "giám sát nhân viên"

Vấn đề của MCI có hai tầng. Tầng thứ nhất là chính kế hoạch: ghi lại hành vi trên máy tính của nhân viên để làm dữ liệu huấn luyện AI, vốn đã vượt quá giới hạn riêng tư. Reuters đã đưa tin từ tháng 5 năm 2026 rằng thông tin thu thập của MCI vượt ra ngoài phạm vi ban đầu tiết lộ, và một số dữ liệu được lưu trữ không mã hóa.

Tầng thứ hai là nội dung cụ thể của dữ liệu bị rò rỉ. Theo báo cáo SEV, không phải là các ghi chú hoạt động thông thường, mà là: các câu lệnh hướng dẫn và bản ghi chép từng chữ, cuộc trò chuyện cá nhân, dữ liệu hiệu suất và nhân sự, cùng với các mức độ nhạy cảm của dữ liệu nội bộ của Meta (từ cấp 1 đến cấp 4). Tất cả nhân viên của Meta đều có thể truy cập những dữ liệu này.

Nói đơn giản là: những ghi chú hoạt động của nhân viên vốn chỉ hệ thống thu thập, nay lại bị rò rỉ cùng với các cuộc trò chuyện riêng tư và đánh giá hiệu suất, và không có hạn chế truy cập nội bộ nào. Đây không chỉ là vấn đề "phạm vi thu thập dữ liệu quá rộng", mà là một sự cố về quản trị dữ liệu từ thiết kế đến thực thi.

Sau khi vụ việc bị tiết lộ, Meta đã đưa ra tuyên bố, cho biết đã thiết kế cẩn thận kế hoạch này và tích hợp các biện pháp bảo vệ quyền riêng tư, "hiện không có dấu hiệu nào cho thấy nhân viên truy cập dữ liệu trái phép", nhưng sẽ tạm dừng kế hoạch để điều tra.

đây là chiến trường tiếp theo của vấn đề dữ liệu huấn luyện AI

Khả năng của mô hình AI phần lớn phụ thuộc vào chất lượng và đa dạng của dữ liệu huấn luyện.

Trong vài năm qua, chiến lược dữ liệu của các công ty công nghệ đã trải qua vài giai đoạn: giai đoạn đầu là thu thập dữ liệu công khai trên mạng; giai đoạn thứ hai là mua hoặc cấp phép các bộ dữ liệu cụ thể; giai đoạn thứ ba là dữ liệu tương tác do người dùng tạo ra khi sử dụng sản phẩm — đây cũng là điều mà ChatGPT của OpenAI, các dịch vụ của Google đều đang làm; và hiện tại, xuất hiện nguồn thứ tư: hành vi công việc của nhân viên.

Logic của MCI không khó hiểu. Những gì các kỹ sư, quản lý sản phẩm, nhà thiết kế của Meta làm hàng ngày trên máy tính thể hiện một dạng dữ liệu hành vi con người chất lượng cao, mật độ cao: họ đang suy nghĩ gì, cách tìm kiếm, cách giải quyết vấn đề, cách giao tiếp với đồng nghiệp. Loại dữ liệu này có giá trị đáng kể để huấn luyện AI trợ lý làm việc thực tế.

Vấn đề là, ranh giới đạo đức của con đường này cực kỳ mơ hồ. Liệu dữ liệu hành vi của nhân viên trong mối quan hệ lao động với công ty có tính là tài sản của công ty không?

Liệu nhân viên có thực sự có "quyền từ chối" hay chỉ là sự đồng ý bắt buộc? Khi việc thu thập không chỉ là dữ liệu về hiệu quả công việc, mà còn bao gồm các cuộc trò chuyện riêng tư và đánh giá hiệu suất, ranh giới này càng khó giữ vững.

Từ việc OpenAI bị cáo buộc thu thập phụ đề YouTube, đến Adobe gây hoảng loạn khi sửa đổi điều khoản dịch vụ để "công ty có thể dùng tác phẩm của nhà sáng tạo để huấn luyện AI", rồi đến Meta dùng các phím nhấn của nhân viên làm dữ liệu huấn luyện, vấn đề dữ liệu huấn luyện AI đã mở rộng từ "tranh cãi về bản quyền dữ liệu công khai" sang "đạo đức dữ liệu hành vi cá nhân" ở một cấp độ sâu hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim