Агенти штучного інтелекту для підприємств потребують стрес-тестування, а не рекламних матеріалів

Abhishek Saxena, керівник відділу стратегій та зростання, Sentient.


Фінтех рухається швидко. Новини скрізь, ясності — ні.

Щотижневий огляд FinTech Weekly пропонує ключові історії та події в одному місці.

Клацніть тут, щоб підписатися на розсилку FinTech Weekly

Читають керівники JP Morgan, Coinbase, BlackRock, Klarna та інші.


Підприємницький штучний інтелект має проблему довіри, яку жоден маркетинг не здатен вирішити. Компанії починають впроваджувати автономних агентів у виробничі середовища, де одна погана рішення може спричинити порушення відповідності, невиплачений платіж, торгову помилку, фінансові збитки або репутаційний кризу. І все ж стандарт оцінки готовності агента до виробництва залишається, по суті, демонстрацією, яка виглядає вражаюче на сцені.

Запуск Nvidia NemoClaw цього тижня сигналізує, наскільки швидко автономні агенти переходять від експериментів до підприємницьких робочих процесів. Платформа додає важливі засоби безпеки та конфіденційності, включаючи ізоляцію та політичні обмеження. Але безпечне розгортання — це не те саме, що готовність до виробництва. Складніше питання — чи були ці системи протестовані на стабільну роботу в умовах невизначеності, крайніх випадках і регуляторного тиску.

Створити агента, який може виконати завдання у контрольованому середовищі, відносно просто. Створити агента, який здатен справлятися з невизначеністю, відновлюватися після несподіваних входів, підтримувати послідовність у тисячах одночасних взаємодій і робити все це без порушення регуляторних обмежень — зовсім інша інженерна задача.

Саме тут багато підприємницьких впроваджень стикаються з проблемами. Різниця між демонстраційною продуктивністю і надійністю у виробництві ширша, ніж очікують більшість команд.

Агент, який бездоганно обробляє запит служби підтримки під час тестування, може створити ілюзію існування політики повернення коштів, якої насправді немає, коли стикається з крайовим випадком, який він ніколи не бачив. Агент, що керує фінансовими процесами, може ідеально працювати на історичних даних, але приймати катастрофічні рішення, коли ринкові умови виходять за межі його тренувального розподілу. Логістичний агент, що координує ланцюг постачань, може успішно працювати у симуляції, але мати труднощі, коли реальні затримки та конфліктні сигнали починають накопичуватися.

Ті, хто тестував агентів у ворожих середовищах, швидко впізнають ці шаблони. Системи працюють — доки не стикаються з невизначеністю та тиском, що визначають реальні операції.

Саме тому нинішня увага галузі до створення більшої кількості рамок для агентів пропускає важливий елемент. Реальний бар’єр — не швидкість створення агентів, а впевненість у їхній оцінці перед тим, як їм довірять реальні обов’язки.

Потрібна строгий, систематичний інфраструктурний підхід до стрес-тестування автономних систем. Це означає навмисне вводити такі дані, що зламають агентів у виробничих умовах. Оцінювати, як агенти поводяться в умовах невизначеності, конфліктної інформації та крайових випадках, яких немає у чистих тестових наборах даних. І — постійно оцінювати, а не проводити однократне тестування перед запуском.

Відкритий підхід NemoClaw — крок у правильному напрямку, оскільки він дає розробникам можливість бачити, як працюють агенти. Неможливо належним чином протестувати чорний ящик. Але лише видимість недостатня. Саме інфраструктура тестування має розвиватися разом із системами, які вона оцінює.

Розробка агентів має передбачати, що збої неминучі, і їх потрібно виявляти на ранніх етапах. Мета — не довести, що агент працює один раз, а зрозуміти, як він поводиться в умовах невизначеності. Такий підхід змінює спосіб оцінки агентів, проектування обмежувальних рамок і підготовки систем до розгортання у високоризикових середовищах.

Ризики зростатимуть, коли агенти перейдуть від ізольованих завдань до цілісних робочих процесів. Компанії вже досліджують агентів, що ведуть переговори щодо контрактів, виконують фінансові транзакції, координують ланцюги постачань і керують складними операційними процесами. Коли ці системи працюють на кількох етапах прийняття рішень, один помилковий крок може швидко спричинити ланцюгову реакцію.

Агент служби підтримки, що не справляється, втрачає заявку. Фінансовий агент, що зазнає невдачі, може втратити капітал. Операційний агент, що не справляється, може затримати всю виробничу лінію.
Компанії, які зможуть довіряти своїм агентам у підприємницькому AI, не будуть тими, що впровадили перших агентів. Вони — ті, що впровадили тих, кому справді довіряють.

Довіра — це не функція, яку додають наприкінці розробки. Це інженерна дисципліна — починається з того, як системи тестуються, як їх поведінка оцінюється під тиском і як зрозуміти їхні збої задовго до того, як вони опиняться у виробничому середовищі.

Nvidia надає підприємствам потужні інструменти для створення автономних агентів. Складніше питання — і саме воно визначить, чи зможуть ці системи успішно працювати у реальному світі — чи компанії інвестують рівно таку ж увагу у інфраструктуру, необхідну для доведення агентів до готовності.


Про автора

Abhishek Saxena — керівник відділу стратегій і зростання в Sentient, відкритій платформі штучного інтелекту, що створює інфраструктуру для надійних автономних агентів. Раніше Abhishek працював у Polygon Technology, Apple та InMobi, має MBA з Гарвардської бізнес-школи.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити