Các Đại lý AI Doanh nghiệp Cần Thử nghiệm Tải, Không Phát biểu Quảng cáo

Abhishek Saxena, Giám đốc Chiến lược và Tăng trưởng, Sentient.


FinTech chuyển động nhanh. Tin tức ở khắp mọi nơi, nhưng sự rõ ràng thì không.

FinTech Weekly cung cấp những câu chuyện và sự kiện then chốt ở một nơi.

Bấm vào đây để đăng ký nhận bản tin của FinTech Weekly

Được đọc bởi các lãnh đạo tại JP Morgan, Coinbase, BlackRock, Klarna và hơn thế nữa.


AI doanh nghiệp đang gặp vấn đề về niềm tin mà không có bất kỳ lượng marketing nào có thể giải quyết. Các công ty bắt đầu triển khai các tác nhân tự chủ vào môi trường sản xuất, nơi chỉ một quyết định sai có thể dẫn đến vi phạm tuân thủ, thanh toán thất bại, lỗi giao dịch, tổn thất tài chính hoặc khủng hoảng về danh tiếng. Tuy nhiên, tiêu chuẩn phổ biến của ngành để đánh giá liệu một tác nhân đã sẵn sàng cho sản xuất vẫn, về cơ bản, là một bản demo trông ấn tượng trên sân khấu.

Lễ ra mắt NemoClaw của Nvidia tuần này cho thấy mức độ nhanh chóng các tác nhân tự chủ đang chuyển từ thử nghiệm sang quy trình làm việc trong doanh nghiệp. Nền tảng này bổ sung các cơ chế kiểm soát quan trọng về bảo mật và quyền riêng tư, bao gồm cơ chế sandboxing và các rào chắn chính sách. Nhưng triển khai an toàn không đồng nghĩa với sẵn sàng cho sản xuất. Câu hỏi khó hơn là liệu các hệ thống này đã được kiểm chứng để vận hành ổn định trong bối cảnh mơ hồ, các tình huống biên và áp lực từ quy định hay chưa.

Xây dựng một tác nhân có thể hoàn thành một nhiệm vụ trong môi trường được kiểm soát là tương đối dễ. Xây dựng một tác nhân có thể xử lý sự mơ hồ, phục hồi trước các đầu vào bất ngờ, duy trì tính nhất quán giữa hàng nghìn tương tác đồng thời, và làm tất cả mà không vi phạm các ràng buộc về quy định—đó là một bài toán kỹ thuật hoàn toàn khác.

Chính sự khác biệt đó khiến nhiều triển khai trong doanh nghiệp gặp rắc rối. Khoảng cách giữa hiệu suất của demo và độ tin cậy trong sản xuất còn lớn hơn hầu hết các đội ngũ kỳ vọng.

Một tác nhân xử lý hoàn hảo truy vấn hỗ trợ khách hàng trong quá trình kiểm thử có thể “bịa” ra một chính sách hoàn tiền không tồn tại khi đối mặt với một tình huống biên mà nó chưa từng gặp. Một tác nhân quản lý quy trình tài chính có thể hoạt động hoàn hảo trên dữ liệu lịch sử nhưng đưa ra quyết định thảm họa khi điều kiện thị trường thay đổi ngoài vùng phân phối mà nó được huấn luyện. Một tác nhân logistics điều phối chuỗi cung ứng có thể thành công trong mô phỏng nhưng lại gặp khó khăn khi các chậm trễ trong thế giới thực và các tín hiệu xung đột bắt đầu cộng dồn.

Bất kỳ ai đã đưa tác nhân đi qua môi trường kiểm thử mang tính đối kháng (adversarial testing) cũng sẽ nhận ra nhanh các mẫu hình này. Hệ thống vẫn hoạt động—cho đến khi nó gặp đúng kiểu mơ hồ và áp lực định nghĩa nên vận hành thực sự.

Đó là lý do ngành hiện đang tập trung xây dựng thêm các khung tác nhân (agent frameworks) lại bỏ lỡ một mảnh quan trọng trong câu đố. Nút thắt thực sự không phải là tốc độ các công ty có thể tạo ra tác nhân. Mà là mức độ chắc chắn họ có thể đánh giá các tác nhân đó trước khi giao cho chúng trách nhiệm thực.

Thứ AI doanh nghiệp cần là hạ tầng kiểm thử chịu tải (stress-testing) nghiêm ngặt và có hệ thống, được thiết kế riêng cho các hệ thống tự chủ. Điều đó có nghĩa là cố tình đưa vào những loại đầu vào có thể làm các tác nhân “gãy” trong sản xuất. Điều đó có nghĩa là đánh giá cách tác nhân hành xử dưới sự không chắc chắn, thông tin xung đột và các tình huống biên không xuất hiện trong các bộ dữ liệu benchmark sạch sẽ. Và điều đó có nghĩa là đánh giá liên tục, không phải chỉ là một lần kiểm thử trước khi ra mắt.

Cách tiếp cận mã nguồn mở của NemoClaw là một bước đi đúng hướng vì nó giúp nhà phát triển có thể nhìn thấy cách các tác nhân vận hành. Bạn không thể kiểm thử đúng cách một “hộp đen”. Nhưng chỉ có khả năng nhìn thấy vẫn chưa đủ. Bản thân hạ tầng kiểm thử cũng cần phát triển song song với các hệ thống mà nó đánh giá.

Phát triển tác nhân phải giả định rằng các chế độ hỏng (failure modes) là điều không thể tránh khỏi và cần được bộc lộ sớm. Mục tiêu không phải là chứng minh rằng một tác nhân hoạt động một lần, mà là hiểu nó hành xử như thế nào khi điều kiện trở nên khó lường. Tư duy này thay đổi cách đánh giá tác nhân, cách thiết kế các rào chắn (guardrails), và cách chuẩn bị hệ thống để triển khai trong các môi trường có rủi ro cao.

Rủi ro sẽ chỉ tăng lên khi các tác nhân chuyển từ các nhiệm vụ đơn lẻ sang quy trình làm việc end-to-end. Các doanh nghiệp đã và đang khám phá những tác nhân có thể đàm phán hợp đồng, thực hiện giao dịch tài chính, điều phối chuỗi cung ứng và quản lý các quy trình vận hành phức tạp. Khi các hệ thống này hoạt động qua nhiều điểm quyết định, tác động của một sai lầm đơn lẻ có thể nhanh chóng lan rộng.

Một tác nhân hỗ trợ khách hàng bị lỗi thì mất một ticket. Một tác nhân tài chính bị lỗi có thể làm mất vốn. Một tác nhân vận hành bị lỗi có thể làm chậm cả một dây chuyền sản xuất.
Những công ty cuối cùng thành công với AI doanh nghiệp sẽ không phải là những công ty triển khai tác nhân trước. Họ sẽ là những công ty triển khai các tác nhân mà thực sự có thể tin cậy.

Niềm tin không phải là một “tính năng” bạn thêm vào ở cuối giai đoạn phát triển. Đó là một kỷ luật kỹ thuật—bắt đầu từ cách các hệ thống được kiểm thử, cách hành vi của chúng được đánh giá dưới áp lực, và cách các chế độ hỏng của chúng được hiểu rõ từ rất lâu trước khi chúng chạm tới một khối lượng công việc trong sản xuất.

Nvidia đang cung cấp cho các doanh nghiệp những công cụ mạnh mẽ để xây dựng các tác nhân tự chủ. Câu hỏi khó hơn—và là câu hỏi sẽ quyết định liệu các hệ thống này có thành công trong thế giới thực hay không—là liệu các tổ chức có đầu tư tương đương vào hạ tầng cần thiết để chứng minh rằng các tác nhân đó đã sẵn sàng hay không.


Về tác giả

Abhishek Saxena là Giám đốc Chiến lược và Tăng trưởng tại Sentient, một nền tảng AI mã nguồn mở xây dựng hạ tầng cho các tác nhân tự chủ đáng tin cậy. Trước đây, Abhishek giữ các vai trò tại Polygon Technology, Apple và InMobi, và có bằng MBA từ Harvard Business School.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.99KNgười nắm giữ:2
    5.61%
  • Ghim