Các Đại lý AI Doanh nghiệp Cần Thử nghiệm Tải, Không Phát biểu Quảng cáo

SleepTrader

2026-03-28 02:24:51

Abhishek Saxena, Trưởng bộ phận Chiến lược và Tăng trưởng, Sentient.

Công nghệ tài chính phát triển nhanh chóng. Tin tức ở khắp mọi nơi, nhưng sự rõ ràng thì không có.

FinTech Weekly cung cấp những câu chuyện và sự kiện chính trong một nơi.

Nhấn vào đây để đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, BlackRock, Klarna và nhiều hơn nữa.

Trí tuệ nhân tạo doanh nghiệp đang gặp vấn đề về lòng tin mà không có chiến dịch marketing nào có thể giải quyết. Các công ty bắt đầu triển khai các tác nhân tự động vào môi trường sản xuất, nơi một quyết định sai lầm duy nhất có thể gây ra vi phạm quy định, một khoản thanh toán thất bại, một lỗi giao dịch, một khoản thua lỗ tài chính hoặc một cuộc khủng hoảng danh tiếng. Và mặc dù vậy, tiêu chuẩn của ngành để đánh giá xem một tác nhân có sẵn sàng cho sản xuất hay không vẫn, trên thực tế, là một buổi trình diễn trông ấn tượng trên sân khấu.

Sự ra mắt của Nvidia’s NemoClaw trong tuần này báo hiệu sự chuyển mình nhanh chóng của các tác nhân tự động từ thử nghiệm sang quy trình làm việc doanh nghiệp. Nền tảng này bổ sung các biện pháp bảo mật và quyền riêng tư quan trọng, bao gồm sandboxing và các rào cản chính sách. Nhưng việc triển khai an toàn không giống như độ sẵn sàng cho sản xuất. Câu hỏi khó hơn là liệu các hệ thống này đã được thử nghiệm để hoạt động đáng tin cậy dưới sự không chắc chắn, các trường hợp biên và áp lực quy định hay chưa.

Xây dựng một tác nhân có thể hoàn thành một nhiệm vụ trong môi trường được kiểm soát là tương đối đơn giản. Xây dựng một tác nhân có thể xử lý sự không chắc chắn, phục hồi từ các đầu vào bất ngờ, duy trì tính nhất quán qua hàng nghìn tương tác đồng thời, và làm tất cả điều này mà không vi phạm các ràng buộc quy định là một vấn đề kỹ thuật hoàn toàn khác.

Sự khác biệt đó là nơi nhiều triển khai doanh nghiệp gặp rắc rối. Khoảng cách giữa hiệu suất trình diễn và độ tin cậy trong sản xuất rộng hơn hầu hết các nhóm mong đợi.

Một tác nhân xử lý một truy vấn hỗ trợ khách hàng một cách hoàn hảo trong thử nghiệm có thể tưởng tượng ra một chính sách hoàn tiền không tồn tại khi phải đối mặt với một trường hợp biên mà nó chưa bao giờ thấy. Một tác nhân quản lý quy trình tài chính có thể thực hiện hoàn hảo trên dữ liệu lịch sử nhưng đưa ra những quyết định thảm khốc khi điều kiện thị trường thay đổi ngoài phân phối đào tạo của nó. Một tác nhân logistics điều phối một chuỗi cung ứng có thể thành công trong mô phỏng nhưng gặp khó khăn khi các sự chậm trễ và tín hiệu mâu thuẫn trong thế giới thực bắt đầu tích lũy.

Bất kỳ ai đã cho chạy các tác nhân qua các môi trường thử nghiệm đối kháng sẽ nhanh chóng nhận ra những mô hình này. Các hệ thống hoạt động—cho đến khi chúng gặp phải loại sự không chắc chắn và áp lực định nghĩa các hoạt động thực tế.

Đây là lý do tại sao sự tập trung hiện tại của ngành vào việc xây dựng nhiều khung tác nhân lại bỏ qua một phần quan trọng của câu đố. Cổ chai thực sự không phải là tốc độ mà các công ty có thể tạo ra các tác nhân. Đó là mức độ tự tin mà họ có thể đánh giá chúng trước khi những tác nhân đó được giao trách nhiệm thực sự.

Điều mà trí tuệ nhân tạo doanh nghiệp cần là cơ sở hạ tầng kiểm tra căng thẳng nghiêm ngặt, hệ thống được thiết kế đặc biệt cho các hệ thống tự động. Điều đó có nghĩa là cố ý giới thiệu các loại đầu vào có thể phá vỡ các tác nhân trong sản xuất. Điều đó có nghĩa là đánh giá cách các tác nhân hành xử dưới sự không chắc chắn, thông tin mâu thuẫn và các trường hợp biên không xuất hiện trong các tập dữ liệu chuẩn sạch. Và điều đó có nghĩa là đánh giá liên tục, không phải là một bài kiểm tra một lần trước khi ra mắt.

Cách tiếp cận mã nguồn mở của NemoClaw là một bước đi đúng hướng vì nó cung cấp cho các nhà phát triển cái nhìn về cách các tác nhân hoạt động. Bạn không thể kiểm tra đúng cách một hộp đen. Nhưng chỉ có cái nhìn thôi thì không đủ. Cơ sở hạ tầng kiểm tra cần phải phát triển cùng với các hệ thống mà nó đánh giá.

Phát triển tác nhân nên giả định rằng các chế độ thất bại là không thể tránh khỏi và phải được phát hiện sớm. Mục tiêu không phải là chứng minh rằng một tác nhân hoạt động một lần, mà là hiểu cách nó hành xử khi điều kiện trở nên không thể đoán trước. Tư duy đó thay đổi cách các tác nhân được đánh giá, cách các rào cản được thiết kế và cách các hệ thống được chuẩn bị cho việc triển khai trong các môi trường có rủi ro cao.

Các rủi ro chỉ tăng lên khi các tác nhân chuyển từ các nhiệm vụ riêng lẻ sang quy trình làm việc end-to-end. Các doanh nghiệp đã bắt đầu khám phá các tác nhân đàm phán hợp đồng, thực hiện giao dịch tài chính, điều phối chuỗi cung ứng và quản lý các quy trình hoạt động phức tạp. Khi các hệ thống này hoạt động qua nhiều điểm quyết định, tác động của một sai lầm duy nhất có thể nhanh chóng tích lũy.

Một tác nhân hỗ trợ khách hàng thất bại sẽ mất một phiếu yêu cầu. Một tác nhân tài chính thất bại có thể mất vốn. Một tác nhân hoạt động thất bại có thể làm chậm toàn bộ dây chuyền sản xuất.
Các công ty cuối cùng thành công với trí tuệ nhân tạo doanh nghiệp sẽ không phải là những công ty triển khai các tác nhân đầu tiên. Họ sẽ là những công ty triển khai các tác nhân mà họ thực sự có thể tin tưởng.

Lòng tin không phải là một tính năng bạn thêm vào cuối quá trình phát triển. Nó là một kỷ luật kỹ thuật—một kỷ luật bắt đầu từ cách các hệ thống được kiểm tra, cách hành vi của chúng được đánh giá dưới áp lực, và cách các chế độ thất bại của chúng được hiểu rõ trước khi chúng chạm vào khối lượng công việc sản xuất.

Nvidia đang cung cấp cho các doanh nghiệp những công cụ mạnh mẽ để xây dựng các tác nhân tự động. Câu hỏi khó hơn—và câu hỏi sẽ xác định liệu các hệ thống này có thành công trong thế giới thực hay không—là liệu các tổ chức có đầu tư tương đương vào cơ sở hạ tầng cần thiết để chứng minh rằng những tác nhân đó đã sẵn sàng hay không.

Về tác giả

Abhishek Saxena là Trưởng bộ phận Chiến lược và Tăng trưởng tại Sentient, một nền tảng AI mã nguồn mở xây dựng cơ sở hạ tầng cho các tác nhân tự động đáng tin cậy. Trước đây, Abhishek đã giữ các vị trí tại Polygon Technology, Apple và InMobi, và có bằng MBA từ Harvard Business School.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.