Các Đại lý AI Doanh nghiệp Cần Thử nghiệm Tải, Không Phát biểu Quảng cáo

Abhishek Saxena, Giám đốc Chiến lược và Tăng trưởng, Sentient.


FinTech diễn ra nhanh chóng. Tin tức ở khắp mọi nơi, nhưng sự rõ ràng thì không.

FinTech Weekly cung cấp các câu chuyện và sự kiện quan trọng nhất ở cùng một nơi.

Nhấp vào đây để đăng ký nhận bản tin FinTech Weekly

Được đọc bởi các lãnh đạo tại JP Morgan, Coinbase, BlackRock, Klarna và nhiều tổ chức khác.


Trí tuệ nhân tạo doanh nghiệp đang gặp vấn đề về niềm tin mà không có lượng marketing nào có thể giải quyết. Các công ty bắt đầu triển khai các tác nhân tự động (autonomous agents) vào môi trường vận hành, nơi chỉ một quyết định sai có thể kích hoạt vi phạm tuân thủ, thanh toán thất bại, lỗi giao dịch, thiệt hại tài chính hoặc khủng hoảng danh tiếng. Tuy nhiên, chuẩn mực của ngành để đánh giá liệu một tác nhân đã sẵn sàng cho môi trường vận hành vẫn—trên thực tế—là một bản demo nhìn ấn tượng trên sân khấu.

Bước khởi động NemoClaw của Nvidia tuần này cho thấy tốc độ các tác nhân tự động đang chuyển từ thử nghiệm sang quy trình làm việc trong doanh nghiệp nhanh đến mức nào. Nền tảng này bổ sung các biện pháp kiểm soát quan trọng về bảo mật và quyền riêng tư, bao gồm cơ chế đóng gói (sandboxing) và hàng rào kiểm soát theo chính sách (policy guardrails). Nhưng triển khai an toàn không đồng nghĩa với mức độ sẵn sàng cho môi trường vận hành. Câu hỏi khó hơn là liệu các hệ thống này đã được thử nghiệm để vận hành một cách đáng tin cậy trong điều kiện mơ hồ, các tình huống biên (edge cases) và áp lực từ yêu cầu tuân thủ quy định.

Xây dựng một tác nhân có thể hoàn thành một nhiệm vụ trong môi trường được kiểm soát là tương đối dễ. Xây dựng một tác nhân có thể xử lý sự mơ hồ, khôi phục sau các đầu vào không ngờ tới, duy trì tính nhất quán trên hàng nghìn tương tác diễn ra đồng thời, và làm được tất cả mà không vi phạm các ràng buộc theo quy định—đó là một bài toán kỹ thuật hoàn toàn khác.

Chính khoảng cách đó khiến nhiều triển khai trong doanh nghiệp gặp rắc rối. Khoảng cách giữa hiệu suất trong demo và độ tin cậy trong môi trường vận hành rộng hơn so với hầu hết các đội ngũ mong đợi.

Một tác nhân xử lý yêu cầu hỗ trợ khách hàng một cách hoàn hảo trong quá trình kiểm thử có thể bịa ra một chính sách hoàn tiền không tồn tại khi gặp phải một tình huống biên mà nó chưa từng thấy. Một tác nhân quản lý quy trình tài chính có thể hoạt động xuất sắc trên dữ liệu lịch sử, nhưng đưa ra những quyết định thảm họa khi điều kiện thị trường thay đổi vượt ra ngoài phân phối mà nó được huấn luyện. Một tác nhân logistics phối hợp chuỗi cung ứng có thể thành công trong mô phỏng nhưng lại gặp khó khăn khi các trễ trễ ngoài thực tế và tín hiệu xung đột bắt đầu cộng dồn.

Bất kỳ ai đã đưa các tác nhân qua môi trường kiểm thử mang tính đối kháng (adversarial testing) đều sẽ nhận ra nhanh chóng các mẫu hình này. Hệ thống hoạt động—cho đến khi nó gặp đúng loại mơ hồ và áp lực xác định vận hành thực sự.

Đó là lý do vì sao trọng tâm hiện tại của ngành vào việc xây dựng thêm các khung (framework) cho tác nhân lại bỏ sót một mảnh ghép quan trọng. Nút thắt thực sự không phải là tốc độ mà các công ty có thể tạo ra tác nhân. Mà là mức độ chắc chắn mà họ có thể đánh giá tác nhân trước khi giao cho chúng trách nhiệm thực trong thế giới vận hành.

Thứ mà AI doanh nghiệp cần là hạ tầng kiểm thử ứng suất (stress-testing) nghiêm ngặt và có hệ thống được thiết kế riêng cho các hệ thống tự động. Điều đó có nghĩa là cố tình đưa vào những loại đầu vào có thể làm các tác nhân vỡ trong môi trường vận hành. Điều đó có nghĩa là đánh giá cách các tác nhân ứng xử dưới bất định, thông tin xung đột, và các tình huống biên không xuất hiện trong các bộ dữ liệu benchmark sạch. Và điều đó có nghĩa là đánh giá liên tục, chứ không phải một lần kiểm thử trước khi ra mắt.

Cách tiếp cận mã nguồn mở của NemoClaw là một bước đi đúng hướng vì nó giúp các nhà phát triển có khả năng quan sát cách các tác nhân hoạt động. Bạn không thể kiểm thử đúng một “hộp đen” (black box). Nhưng chỉ có khả năng quan sát thôi là chưa đủ. Bản thân hạ tầng kiểm thử cũng cần phát triển song song với các hệ thống mà nó đánh giá.

Việc phát triển tác nhân nên giả định rằng các chế độ hỏng (failure modes) là điều không thể tránh khỏi và cần được lộ diện sớm. Mục tiêu không phải là chứng minh rằng một tác nhân hoạt động một lần, mà là hiểu nó vận hành ra sao khi điều kiện trở nên khó lường. Tư duy này thay đổi cách các tác nhân được đánh giá, cách thiết kế các hàng rào kiểm soát, và cách chuẩn bị các hệ thống để triển khai trong các môi trường có rủi ro cao.

Mức độ rủi ro sẽ chỉ tăng lên khi các tác nhân chuyển từ các nhiệm vụ riêng lẻ sang các quy trình đầu-cuối (end-to-end workflows). Các doanh nghiệp đã bắt đầu khám phá những tác nhân có thể đàm phán hợp đồng, thực hiện giao dịch tài chính, phối hợp chuỗi cung ứng và quản lý các quy trình vận hành phức tạp. Khi các hệ thống này vận hành qua nhiều điểm ra quyết định, tác động của một sai lầm đơn lẻ có thể nhanh chóng lan rộng theo chuỗi.

Một tác nhân hỗ trợ khách hàng bị lỗi sẽ làm mất một vé (ticket). Một tác nhân tài chính bị lỗi có thể làm mất vốn (capital). Một tác nhân vận hành bị lỗi có thể làm chậm cả dây chuyền sản xuất.
Những công ty cuối cùng đạt được thành công với AI doanh nghiệp sẽ không phải là những công ty triển khai tác nhân đầu tiên. Họ sẽ là những công ty triển khai các tác nhân mà thực sự có thể tin cậy.

Niềm tin không phải là một tính năng bạn thêm vào ở cuối quá trình phát triển. Đó là một kỷ luật kỹ thuật—bắt đầu từ cách các hệ thống được kiểm thử, cách hành vi của chúng được đánh giá dưới áp lực, và hiểu rõ các chế độ hỏng của chúng từ rất lâu trước khi chúng chạm vào một khối lượng công việc vận hành thực tế.

Nvidia đang cung cấp cho các doanh nghiệp những công cụ mạnh mẽ để xây dựng các tác nhân tự động. Câu hỏi khó hơn—và câu hỏi sẽ quyết định liệu các hệ thống này có thành công ngoài đời thực hay không—là liệu các tổ chức có đầu tư ngang nhau vào hạ tầng cần thiết để chứng minh rằng các tác nhân đó đã sẵn sàng hay không.


Giới thiệu về tác giả

Abhishek Saxena là Giám đốc Chiến lược và Tăng trưởng tại Sentient, một nền tảng AI mã nguồn mở xây dựng hạ tầng cho các tác nhân tự động đáng tin cậy. Trước đây, Abhishek từng đảm nhiệm các vai trò tại Polygon Technology, Apple và InMobi, và có bằng MBA từ Harvard Business School.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.28KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Ghim