Các Tác Nhân AI Doanh Nghiệp Cần Kiểm Tra Áp Lực, Không Phải Các Bài Quảng Cáo

Abhishek Saxena, Trưởng phòng Chiến lược và Phát triển, Sentient.


FinTech phát triển nhanh chóng. Tin tức tràn ngập khắp nơi, sự rõ ràng thì không.

FinTech Weekly cung cấp các câu chuyện và sự kiện chính trong một nơi.

Nhấn vào đây để Đăng ký bản tin FinTech Weekly

Được đọc bởi các giám đốc điều hành tại JP Morgan, Coinbase, BlackRock, Klarna và nhiều hơn nữa.


AI doanh nghiệp đang gặp vấn đề về độ tin cậy mà không có marketing nào có thể giải quyết được. Các công ty bắt đầu triển khai các đại lý tự động vào môi trường sản xuất, nơi một quyết định sai có thể gây vi phạm quy định, thất bại trong thanh toán, lỗi giao dịch, thiệt hại tài chính hoặc khủng hoảng uy tín. Tuy nhiên, tiêu chuẩn của ngành để đánh giá xem một đại lý đã sẵn sàng cho sản xuất vẫn còn, về cơ bản, chỉ là một buổi trình diễn ấn tượng trên sân khấu.

Ra mắt NemoClaw của Nvidia tuần này cho thấy các đại lý tự động đang chuyển từ thử nghiệm sang quy trình làm việc doanh nghiệp nhanh chóng như thế nào. Nền tảng này bổ sung các kiểm soát an ninh và quyền riêng tư quan trọng, bao gồm sandboxing và các giới hạn chính sách. Nhưng triển khai an toàn không giống như sẵn sàng cho sản xuất. Câu hỏi khó hơn là liệu các hệ thống này đã được kiểm tra để hoạt động đáng tin cậy trong điều kiện mơ hồ, các trường hợp ngoại lệ và áp lực quy định hay chưa.

Xây dựng một đại lý có thể hoàn thành nhiệm vụ trong môi trường kiểm soát là khá đơn giản. Xây dựng một đại lý có thể xử lý mơ hồ, phục hồi từ các đầu vào bất ngờ, duy trì tính nhất quán trong hàng nghìn tương tác đồng thời, và làm tất cả điều này mà không vi phạm các quy định là một vấn đề kỹ thuật hoàn toàn khác.

Sự khác biệt này chính là nơi nhiều triển khai doanh nghiệp gặp rắc rối. Khoảng cách giữa hiệu suất trình diễn và độ tin cậy trong sản xuất còn xa hơn nhiều so với dự đoán của hầu hết các nhóm.

Một đại lý xử lý yêu cầu hỗ trợ khách hàng một cách hoàn hảo trong thử nghiệm có thể tưởng tượng ra một chính sách hoàn tiền không tồn tại khi đối mặt với một trường hợp ngoại lệ chưa từng gặp. Một đại lý quản lý quy trình tài chính có thể hoạt động hoàn hảo dựa trên dữ liệu lịch sử nhưng lại đưa ra quyết định thảm họa khi điều kiện thị trường thay đổi ngoài phân phối đào tạo của nó. Một đại lý logistics điều phối chuỗi cung ứng có thể thành công trong mô phỏng nhưng gặp khó khăn khi các trì hoãn thực tế và tín hiệu mâu thuẫn bắt đầu cộng dồn.

Bất kỳ ai đã thử nghiệm đại lý qua các môi trường thử thách đều nhận ra các mẫu này nhanh chóng. Các hệ thống hoạt động—cho đến khi gặp phải loại mơ hồ và áp lực định nghĩa hoạt động thực tế.

Đây là lý do tại sao sự tập trung hiện tại của ngành vào việc xây dựng nhiều khung đại lý hơn bỏ lỡ một phần quan trọng của câu đố. Thực tế, nút thắt chính không phải là các công ty có thể tạo ra đại lý nhanh như thế nào. Mà là họ có thể đánh giá chúng một cách tự tin trước khi giao cho các đại lý đó trách nhiệm thực sự.

AI doanh nghiệp cần là một hạ tầng kiểm tra căng thẳng nghiêm ngặt, có hệ thống, được thiết kế đặc biệt cho các hệ thống tự động. Điều đó có nghĩa là chủ ý đưa ra các đầu vào làm hỏng đại lý trong sản xuất. Nó có nghĩa là đánh giá cách các đại lý phản ứng dưới điều kiện không chắc chắn, thông tin mâu thuẫn và các trường hợp ngoại lệ không xuất hiện trong các bộ dữ liệu chuẩn. Và nó có nghĩa là đánh giá liên tục, không chỉ một lần trước khi ra mắt.

Phương pháp mở nguồn NemoClaw là một bước đi đúng hướng vì nó cung cấp khả năng nhìn thấy cách các đại lý hoạt động cho các nhà phát triển. Bạn không thể kiểm tra đúng một hộp đen. Nhưng khả năng nhìn thấy thôi là chưa đủ. Hạ tầng kiểm tra cần phải phát triển cùng với các hệ thống mà nó đánh giá.

Phát triển đại lý nên giả định rằng các chế độ thất bại là không thể tránh khỏi và phải được phát hiện sớm. Mục tiêu không phải là chứng minh rằng một đại lý hoạt động tốt một lần, mà là hiểu cách nó phản ứng khi điều kiện trở nên không thể dự đoán. Tư duy này thay đổi cách đánh giá đại lý, cách thiết kế các giới hạn an toàn, và cách chuẩn bị hệ thống cho triển khai trong các môi trường có rủi ro cao.

Nguy cơ sẽ chỉ tăng lên khi các đại lý chuyển từ các nhiệm vụ riêng lẻ sang quy trình làm việc toàn diện. Các doanh nghiệp đã bắt đầu khám phá các đại lý đàm phán hợp đồng, thực hiện giao dịch tài chính, điều phối chuỗi cung ứng và quản lý các quy trình vận hành phức tạp. Khi các hệ thống này hoạt động qua nhiều điểm quyết định, tác động của một sai sót nhỏ có thể nhanh chóng lan rộng.

Một đại lý hỗ trợ khách hàng thất bại sẽ mất một ticket. Một đại lý tài chính thất bại có thể mất vốn. Một đại lý vận hành thất bại có thể trì hoãn toàn bộ dây chuyền sản xuất.
Các công ty cuối cùng thành công với AI doanh nghiệp sẽ không phải là những công ty triển khai đại lý đầu tiên. Họ sẽ là những công ty triển khai đại lý mà họ thực sự có thể tin tưởng.

Sự tin tưởng không phải là một tính năng bạn thêm vào cuối quá trình phát triển. Đó là một ngành kỹ thuật—bắt đầu từ cách hệ thống được kiểm tra, cách hành vi của chúng được đánh giá dưới áp lực, và cách hiểu các chế độ thất bại của chúng từ rất sớm, trước khi chúng tiếp xúc với khối lượng công việc thực tế.

Nvidia đang cung cấp cho các doanh nghiệp các công cụ mạnh mẽ để xây dựng đại lý tự động. Câu hỏi khó hơn—và cũng là câu hỏi quyết định liệu các hệ thống này có thành công trong thế giới thực hay không—là liệu các tổ chức có đầu tư công bằng vào hạ tầng cần thiết để chứng minh rằng các đại lý đó đã sẵn sàng hay không.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.26KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.29KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.29KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.29KNgười nắm giữ:1
    0.00%
  • Ghim