Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Підприємницькі AI-агенти потребують стрес-тестів, а не рекламних презентацій
Абхішек Саксена, керівник напряму стратегії та зростання, Sentient.
Фінтех рухається швидко. Новини всюди, ясності немає.
FinTech Weekly доставляє ключові історії та події в одному місці.
Натисніть тут, щоб підписатися на бюлетень FinTech Weekly
Читають керівники в JP Morgan, Coinbase, BlackRock, Klarna та багатьох інших.
У корпоративного ШІ проблема довіри, яку не можна вирішити жодним маркетингом. Компанії починають розгортати автономні агенти в середовищах виробництва, де одна погана дія може спричинити порушення комплаєнсу, збій платежу, помилку в трейдингу, фінансові втрати або репутаційну кризу. І все ж галузевий стандарт оцінювання того, чи агент готовий до виробництва, фактично досі зводиться до демо, яке добре виглядає на сцені.
Запуск NemoClaw від Nvidia цього тижня показує, як швидко автономні агенти переходять від експериментів до корпоративних робочих процесів. Платформа додає важливі засоби безпеки та конфіденційності, зокрема ізоляцію середовища (sandboxing) і політичні запобіжники (policy guardrails). Але безпечне розгортання — це не те саме, що готовність до виробництва. Складніше питання в тому, чи ці системи були протестовані на надійну роботу в умовах двозначності, крайових випадків і регуляторного тиску.
Створити агента, який може виконати задачу в контрольованому середовищі, відносно просто. Створити агента, який здатен справлятися з двозначністю, відновлюватися після несподіваних вхідних даних, зберігати узгодженість у тисячах паралельних взаємодій — і робити це, не порушуючи регуляторні обмеження, — це зовсім інша інженерна задача.
Саме тут у багатьох корпоративних розгортаннях виникають проблеми. Розрив між демонстраційною ефективністю та надійністю у виробництві більший, ніж очікує більшість команд.
Агент, який бездоганно обробляє запит клієнта в тестуванні, може «галюцинувати» політику повернення коштів, якої не існує, коли зіткнеться з крайовим випадком, якого він ніколи не бачив. Агент для фінансових робочих процесів може працювати ідеально на історичних даних, але ухвалювати катастрофічні рішення, коли ринкові умови виходять за межі того, на чому його навчали. Логістичний агент, який координує ланцюг постачання, може досягати успіху в симуляції, але зазнати труднощів, коли реальні затримки та суперечливі сигнали починають накопичуватися.
Ті, хто проганяв агентів через середовища для адверсаріального тестування, швидко впізнають ці патерни. Системи працюють — аж поки не зіткнуться з тією двозначністю та тиском, які визначають реальні операції.
Ось чому нинішній фокус галузі на створенні дедалі більшої кількості агентських фреймворків пропускає критичну частину пазлу. Реальний «вузький» момент не в тому, як швидко компанії можуть створювати агентів. Реальний момент — у тому, наскільки впевнено вони можуть оцінювати їх ще до того, як цим агентам дадуть реальну відповідальність.
Тому корпоративному ШІ потрібна строгa, систематична інфраструктура для стрес-тестування, спеціально розроблена для автономних систем. Це означає навмисне введення типів вхідних даних, які ламають агентів у виробництві. Це означає оцінювання того, як агенти поводяться в умовах невизначеності, суперечливої інформації та крайових випадків, які не з’являються в чистих наборах даних для бенчмарків. І це означає безперервну оцінку, а не одноразове тестування перед запуском.
Підхід NemoClaw із відкритим кодом — крок у правильному напрямку, адже він дає розробникам видимість того, як агенти працюють. Ви не можете належним чином протестувати «чорну скриньку». Але лише видимості недостатньо. Сама інфраструктура тестування має розвиватися паралельно з системами, які вона оцінює.
Розробка агентів має виходити з припущення, що режими відмов неминучі, і їх потрібно виявляти на ранніх етапах. Мета не в тому, щоб довести, що агент працює один раз, а в тому, щоб зрозуміти, як він поводиться, коли умови стають непередбачуваними. Такий підхід змінює те, як оцінюють агентів, як проєктують запобіжники та як готують системи до розгортання в середовищах із високими ставками.
Ставки лише зростатимуть, коли агенти перейдуть від ізольованих задач до наскрізних робочих процесів. Підприємства вже досліджують агентів, які ведуть переговори щодо контрактів, виконують фінансові транзакції, координують ланцюги постачання та керують складними операційними процесами. Коли ці системи працюють у багатьох точках ухвалення рішень, наслідки однієї помилки можуть швидко лавиноподібно поширюватися.
Агент підтримки клієнтів, який зазнає невдачі, втрачає тикет. Фінансовий агент, який зазнає невдачі, може втратити капітал. Операційний агент, який зазнає невдачі, може затримати цілу виробничу лінію.
Компанії, які зрештою досягнуть успіху з корпоративним ШІ, не будуть тими, хто розгорнув агентів першим. Вони будуть тими, хто розгорнув агентів, яким справді можна довіряти.
Довіра — це не функція, яку додають наприкінці розробки. Це інженерна дисципліна — така, що починається з того, як тестують системи, як оцінюють їх поведінку під тиском, і як розуміють режими відмов задовго до того, як вони будь-коли торкнуться робочого навантаження у виробництві.
Nvidia надає підприємствам потужні інструменти для створення автономних агентів. Складніше питання — і те, яке визначить, чи ці системи досягнуть успіху в реальному світі, — чи організації інвестують так само сильно в інфраструктуру, необхідну, щоб довести готовність цих агентів.
Про автора
Абхішек Саксена — керівник напряму стратегії та зростання в Sentient, відкритій платформі ШІ з відкритим кодом, яка будує інфраструктуру для надійних автономних агентів. Раніше Абхішек обіймав посади в Polygon Technology, Apple та InMobi, і має MBA у Harvard Business School.