2026-04-02 08:05:06

Gần đây tôi đã đọc một số quan điểm thú vị về lý do tại sao hầu hết các tổ chức đều đang “bay trong bóng tối” với hệ thống AI của họ. Vấn đề cốt lõi? Chúng ta đang triển khai các công cụ mà về cơ bản không thể kiểm soát hoặc sửa chữa khi chúng gặp sự cố.

Neel Somani, người đã thực hiện các nghiên cứu nghiêm túc trong lĩnh vực khoa học máy tính liên quan đến quyền riêng tư và AI, đưa ra một quan điểm vượt qua nhiều tiếng ồn xung quanh rủi ro AI. Mọi người đều nói về kịch bản Skynet, đúng không? Những chuyện tận thế. Nhưng đó không thực sự là vấn đề mà hầu hết các công ty phải đối mặt. Ác mộng vận hành thực sự đơn giản và lộn xộn hơn nhiều: bạn đang vận hành các hệ thống mà bạn không thể gỡ lỗi, không thể chỉnh sửa một cách tự tin, và chắc chắn không thể xác minh.

Hãy nghĩ về cách AI hoạt động trong hầu hết các doanh nghiệp hiện nay. Một mô hình đánh dấu một giao dịch là gian lận. Nó đề xuất ai đó cho một vị trí tuyển dụng. Nó điều chỉnh giá một cách linh hoạt. Rồi sau đó nó cung cấp một lời giải thích. Nghe có vẻ hợp lý. Trừ khi có điều này - lời giải thích đó được reverse-engineered để nghe có vẻ hợp lý. Nó không nhất thiết phản ánh cách hệ thống thực sự đi đến quyết định đó. Thay đổi một biến đầu vào và toàn bộ lý do sẽ sụp đổ. Câu chuyện không khớp với cơ chế.

Khoảng cách đó tạo ra hai rủi ro vận hành nghiêm trọng. Thứ nhất, các lỗi ẩn. Khi logic nội bộ mờ nhạt, các vấn đề có thể lan rộng theo những cách mà không có bất kỳ thử nghiệm nào phát hiện trước đó. Một sửa lỗi cho một vấn đề âm thầm làm hỏng thứ gì đó khác, thường trong những điều kiện đặc biệt mà bạn chưa từng dự đoán. Thứ hai, tính dễ bị tổn thương khi can thiệp. Ngay cả khi bạn xác định được vấn đề, việc sửa chữa trở nên nguy hiểm. Điều chỉnh một thành phần và các phần khác của hệ thống sẽ bù đắp theo những cách tạo ra các chế độ lỗi mới. Nó giống như chơi trò bắt côn trùng với chính hạ tầng của bạn.

Khung làm việc của Neel Somani tập trung vào một thứ gọi là khả năng gỡ lỗi. Không phải khả năng giải thích - đó là điều khác. Khả năng gỡ lỗi có nghĩa là ba khả năng cụ thể: Bạn có thể xác định chính xác cơ chế nào gây ra lỗi không? Bạn có thể chỉnh sửa các cơ chế đó một cách chính xác mà không gây ra hậu quả dây chuyền? Bạn có thể chứng minh rằng việc sửa chữa thực sự đã hiệu quả?

Xác định vị trí không chỉ là xác định lớp nào của mô hình tạo ra đầu ra, mà còn là liệu hành vi đó có thể xảy ra mà không cần cơ chế đó, hoặc liệu cơ chế đó có thể hoạt động mà không tạo ra hành vi đó không. Can thiệp nghĩa là chỉnh sửa các phần chịu trách nhiệm theo cách dự đoán được và nhắm mục tiêu, loại bỏ hành vi xấu trong phạm vi đã định của bạn mà không làm hỏng các phần khác. Chứng nhận nghĩa là đưa ra các tuyên bố toàn diện, có thể phủ nhận về hành vi của mô hình trong các miền giới hạn - không phải là các đảm bảo xác suất, mà là các tuyên bố toàn diện thực sự. Nếu nó thất bại trong phạm vi đó, thì chứng nhận của bạn đã sai.

Đối với lãnh đạo, những hệ quả khá rõ ràng. Quản lý rủi ro truyền thống dựa vào minh bạch và khả năng kiểm tra. Truy nguồn quyết định về những người có trách nhiệm. Các hệ thống AI hộp đen? Toàn bộ khung đó bị xói mòn. Các cơ quan quản lý bắt đầu để ý. Luật AI của EU, tiêu chuẩn NIST, tất cả đều thúc đẩy khả năng giải thích và giám sát. Nhưng đây là điểm mấu chốt: bạn có thể vượt qua một cuộc kiểm tra và vẫn thiếu khả năng kỹ thuật thực sự để sửa hệ thống của mình khi chúng gặp sự cố trong vận hành.

Thể hiện tuân thủ không đồng nghĩa với khả năng vận hành. Khả năng gỡ lỗi chuyển câu hỏi từ "Chúng ta có tài liệu không?" sang "Chúng ta có thể thực sự sửa được không?" Khi một hệ thống AI cư xử sai, tổ chức của bạn có thể xác định nguyên nhân gốc rễ, chỉnh sửa với tự tin, và xác minh rằng việc sửa đó đã thành công không? Nếu không có những khả năng đó, quản trị chỉ là chống cháy phản ứng. Bạn bắt buộc phải xem xét lại, yêu cầu tài liệu, áp đặt giám sát, nhưng tất cả đều không ngăn được lỗi gốc.

Somani vẽ ra một phép so sánh thú vị với phần mềm quan trọng về an toàn. Bạn không thể chứng minh trình duyệt web sẽ không bao giờ bị treo. Nhưng bạn có thể chứng minh rằng các routine cụ thể an toàn về bộ nhớ, sandboxing ngăn chặn các khai thác nhất định, các invariants quan trọng vẫn tồn tại sau các cập nhật, các bản vá loại bỏ lỗ hổng mà không gây ra lỗi hồi quy. Cùng logic đó áp dụng cho AI. Kiểm soát có ý nghĩa không phải là các đảm bảo toàn cục. Nó là các đảm bảo theo thành phần, giới hạn trong miền. Đảm bảo một mạch con không thể kích hoạt một tính năng bị cấm trên các đầu vào đã chỉ định. Chứng minh rằng một can thiệp loại bỏ được chế độ lỗi trong khi vẫn giữ các hành vi khác trong phạm vi. Đó là điều quan trọng để triển khai trong các lĩnh vực có rủi ro cao - tài chính, y tế, chuỗi cung ứng, kiểm duyệt nội dung.

Con đường phía trước đòi hỏi đầu tư mà hầu hết các tổ chức chưa ưu tiên. Ví dụ như xác minh chính thức. Các chứng minh toán học xác lập các đặc tính của phần mềm. Trước đây thường áp dụng cho các bộ điều khiển máy bay và các giao thức mã hóa, mở rộng điều này sang AI là thách thức kỹ thuật nhưng không phải là không thể. Các tiến bộ gần đây trong trích xuất mạch rời rạc cho thấy các mô hình lớn chứa các mạch con riêng biệt ổn định khi can thiệp. Các khung xác minh neural chứng minh rằng suy luận toàn diện hoạt động khi các mô hình được phân tích thành các thành phần dễ xác minh trên các miền giới hạn.

Đối với lãnh đạo, quyết định là chờ các phương pháp này trưởng thành hay xây dựng năng lực ngay bây giờ. Chờ đợi mang theo rủi ro. Việc triển khai AI đang tăng tốc. Khoảng cách giữa những gì các tổ chức triển khai và những gì họ kiểm soát ngày càng mở rộng. Lựa chọn khác là đầu tư vào các đội hiểu rõ cả AI lẫn các phương pháp chính thức, thiết lập tiêu chuẩn nội bộ về khi nào cần khả năng gỡ lỗi, hợp tác với các nhà cung cấp ưu tiên hệ thống có thể xác minh hơn là tiện lợi của hộp đen. Điều đó có nghĩa là thay đổi quyết định mua sắm. Khi đánh giá các công cụ AI, thêm một câu hỏi thứ tư ngoài độ chính xác, tốc độ và chi phí: Chúng ta có thể sửa được nếu nó gặp sự cố không?

Hầu hết các cuộc thảo luận về rủi ro AI tập trung vào các mối đe dọa bên ngoài - các cuộc tấn công adversarial, đầu độc dữ liệu, các tác nhân độc hại. Đúng, những mối quan tâm hợp pháp, nhưng chúng làm lu mờ vấn đề cốt lõi. Đối với hầu hết các tổ chức, rủi ro chính không phải là AI vũ khí hóa. Đó là thất bại vận hành thông thường và thiếu các công cụ để phản ứng. Đó là vấn đề quản trị, chứ không phải vấn đề công nghệ.

Luận điểm cốt lõi của Neel Somani: Mục tiêu cuối cùng của quản lý rủi ro AI không phải là giám sát tốt hơn hay kiểm soát nhiều hơn. Đó là xây dựng các hệ thống có thể gỡ lỗi được theo tiêu chuẩn của phần mềm an toàn quan trọng ngày nay. Cho đến khi điều đó trở thành thực hành tiêu chuẩn, các tổ chức đang triển khai hệ thống mà họ thực sự không kiểm soát được. Đối với bất kỳ nhà điều hành nào, câu hỏi không phải là AI có thể biến đổi ngành của bạn hay không - nó đã làm rồi. Câu hỏi là liệu tổ chức của bạn có thực sự quản lý được nó khi cần thiết hay không.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.