Підприємницькі агенти штучного інтелекту потребують стрес-тестів, а не рекламних презентацій

Abhishek Saxena, керівник відділу стратегій та зростання, Sentient.


Фінтех рухається швидко. Новини скрізь, ясності — ні.

Щотижневий огляд FinTech надає ключові історії та події в одному місці.

Натисніть тут, щоб підписатися на розсилку FinTech Weekly

Читають керівники JP Morgan, Coinbase, BlackRock, Klarna та інших.


Підприємницький штучний інтелект має проблему довіри, яку жоден маркетинг не зможе вирішити. Компанії починають впроваджувати автономних агентів у виробничі середовища, де одна погана рішення може спричинити порушення відповідності, невиплачений платіж, торгову помилку, фінансові збитки або репутаційний кризу. І все ж стандарт оцінки готовності агента до виробництва залишається, по суті, демонстрацією, яка виглядає вражаюче на сцені.

Запуск Nvidia NemoClaw цього тижня сигналізує, наскільки швидко автономні агенти переходять від експериментів до підприємницьких робочих процесів. Платформа додає важливі засоби безпеки та конфіденційності, включаючи ізоляцію та політичні обмеження. Але безпечне розгортання не те саме, що готовність до виробництва. Складніше питання — чи були ці системи протестовані на стабільну роботу в умовах невизначеності, крайніх випадках і регуляторного тиску.

Створити агента, який може виконати завдання у контрольованому середовищі, досить просто. Створити агента, який може справлятися з невизначеністю, відновлюватися після несподіваних входів, підтримувати послідовність у тисячах одночасних взаємодій і робити все це без порушення регуляторних обмежень — зовсім інша інженерна задача.

Саме ця різниця і стає причиною труднощів у багатьох підприємницьких впровадженнях. Розрив між демонстраційною продуктивністю і надійністю у виробництві ширший, ніж очікують більшість команд.

Агент, який бездоганно обробляє запит служби підтримки під час тестування, може створити галюцинацію про політику повернення, якої не існує, коли стикається з крайнім випадком, який він ніколи не бачив. Агент, що керує фінансовими процесами, може працювати ідеально на історичних даних, але приймати катастрофічні рішення, коли ринкові умови виходять за межі його тренувального розподілу. Логістичний агент, що координує ланцюг постачань, може успішно працювати у симуляції, але мати труднощі, коли реальні затримки і конфліктні сигнали починають накопичуватися.

Кожен, хто тестував агентів у ворожих середовищах, швидко впізнає ці шаблони. Системи працюють — доки не стикаються з невизначеністю і тиском, що визначають реальні операції.

Саме тому поточна увага галузі до створення більшої кількості рамок для агентів пропускає важливий елемент головоломки. Реальний вузол — не в тому, наскільки швидко компанії можуть створювати агентів. А в тому, наскільки впевнено вони можуть їх оцінювати перед тим, як надати цим агентам реальну відповідальність.

Що потрібно підприємницькому штучному інтелекту — це строгий, систематичний інфраструктурний тест на стрес, спеціально розроблений для автономних систем. Це означає навмисне введення таких типів входів, що зламають агентів у виробничих умовах. Це означає оцінювати, як агенти поводяться в умовах невизначеності, конфліктної інформації та крайніх випадках, які не з’являються у чистих тестових наборах даних. І це означає постійне оцінювання, а не одноразовий тест перед запуском.

Відкритий підхід NemoClaw — це крок у правильному напрямку, оскільки він дає розробникам можливість бачити, як працюють агенти. Неможливо належним чином протестувати чорний ящик. Але лише видимість недостатня. Саму тестову інфраструктуру потрібно розвивати разом із системами, які вона оцінює.

Розробка агентів має передбачати, що збої неминучі, і їх потрібно виявляти на ранніх етапах. Мета — не довести, що агент працює один раз, а зрозуміти, як він поводиться, коли умови стають непередбачуваними. Цей підхід змінює спосіб оцінки агентів, проектування обмежувальних рамок і підготовки систем до розгортання у високоризикових середовищах.

Ризики лише зростатимуть, коли агенти перейдуть від ізольованих завдань до цілісних робочих процесів. Підприємства вже досліджують агентів, які ведуть переговори щодо контрактів, виконують фінансові транзакції, координують ланцюги постачань і керують складними операційними процесами. Коли ці системи працюють на кількох точках прийняття рішень, наслідки однієї помилки можуть швидко поширитися.

Агент служби підтримки, що зазнає невдачі, втрачає заявку. Фінансовий агент, що зазнає невдачі, може втратити капітал. Операційний агент, що зазнає невдачі, може затримати всю виробничу лінію.
Компанії, які зрештою досягнуть успіху з підприємницьким штучним інтелектом, не будуть тими, що впровадили агентів першими. Вони будуть тими, що впровадили агентів, яким справді можна довіряти.

Довіра — це не функція, яку додають наприкінці розробки. Це інженерна дисципліна — починаючи з того, як системи тестуються, як їх поведінка оцінюється під тиском і як довго зрозуміти їхні збої ще до того, як вони почнуть працювати у виробничих умовах.

Nvidia надає підприємствам потужні інструменти для створення автономних агентів. Складніше питання — і саме воно визначить, чи ці системи досягнуть успіху у реальному світі — чи компанії інвестують рівною мірою у інфраструктуру, необхідну для підтвердження готовності цих агентів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити