Підприємницькі AI-агенти потребують стрес-тестів, а не рекламних презентацій

Абхішек Саксена, керівник із стратегії та зростання, Sentient.


Фінтех рухається швидко. Новини всюди, ясності немає.

FinTech Weekly надає ключові історії та події в одному місці.

Натисніть тут, щоб підписатися на розсилку FinTech Weekly

Читають керівники в JP Morgan, Coinbase, BlackRock, Klarna та багатьох інших.


Корпоративний ШІ має проблему довіри, яку неможливо вирішити жодним обсягом маркетингу. Компанії починають впроваджувати автономні агенти у виробничі середовища, де одна невдала дія може спричинити порушення вимог комплаєнсу, невдалий платіж, торговельну помилку, фінансові збитки або репутаційну кризу. І все ж стандарт галузі для оцінювання того, чи агент готовий до production, досі фактично є демонстрацією, яка виглядає вражаюче на сцені.

Запуск NemoClaw від Nvidia цього тижня показує, як швидко автономні агенти переходять від експериментів до корпоративних робочих процесів. Платформа додає важливі засоби безпеки та контролі приватності, зокрема ізоляцію (sandboxing) і політикові обмеження. Але безпечне впровадження — це не те саме, що готовність до production. Складніше питання полягає в тому, чи ці системи були протестовані, щоб працювати надійно в умовах невизначеності, крайових випадків і регуляторного тиску.

Створити агента, який може виконати задачу в контрольованому середовищі, відносно просто. Створити агента, який здатен працювати з невизначеністю, відновлюватися після несподіваних вхідних даних, зберігати послідовність під час тисяч одночасних взаємодій і робити все це, не порушуючи регуляторних обмежень, — це зовсім інша інженерна проблема.

Саме тут у багатьох корпоративних впровадженнях виникають проблеми. Розрив між результатами демо та надійністю у production ширший, ніж очікує більшість команд.

Агент, який бездоганно опрацьовує запит служби підтримки під час тестування, може вигадати політику повернення коштів, якої не існує, коли зіткнеться з крайовим випадком, який він ніколи не бачив. Агент, що керує фінансовими робочими процесами, може працювати ідеально на історичних даних, але ухвалювати катастрофічні рішення, коли ринкові умови виходять за межі розподілу, на якому його навчали. Логістичний агент, який координує ланцюг постачання, може досягати успіху в симуляціях, але зіткнутися з труднощами, коли в реальному світі починають накопичуватися затримки та суперечливі сигнали.

Ті, хто проводив агентів через середовища адверсаріального тестування, швидко впізнають ці патерни. Системи працюють — доки не натрапляють на той рівень невизначеності й тиску, який визначає реальні операції.

Ось чому нинішній фокус галузі на створенні нових агентських фреймворків пропускає критично важливу частину пазлу. Реальна вузька ділянка — не в тому, як швидко компанії можуть створювати агентів. Вона в тому, наскільки впевнено вони можуть їх оцінювати, перш ніж цим агентам доручать реальну відповідальність.

Що потрібно корпоративному ШІ — це сувора, систематична інфраструктура стрес-тестування, спеціально розроблена для автономних систем. Це означає свідоме впровадження саме тих типів вхідних даних, які ламають агентів у production. Це означає оцінювання того, як агенти поводяться в умовах невизначеності, суперечливої інформації та крайових випадків, які не з’являються в акуратно підготовлених наборах даних для бенчмарків. І це означає безперервне оцінювання, а не разове тестування перед запуском.

Відкритий підхід NemoClaw є кроком у правильному напрямку, адже він дає розробникам видимість того, як агенти працюють. Ви не можете коректно тестувати «чорну скриньку». Але однієї видимості недостатньо. Сам тестувальний інструментарій має розвиватися разом із системами, які він оцінює.

Розробка агентів має виходити з того, що режими відмов неминучі й їх потрібно виявляти на ранніх етапах. Ціль не в тому, щоб довести, що агент працює один раз, а в тому, щоб зрозуміти, як він поводиться, коли умови стають непередбачуваними. Такий підхід змінює те, як оцінюють агентів, як проектують обмежувальні «запобіжники» (guardrails), і як системи готують до впровадження в середовищах із високими ставками.

Ставки лише зростатимуть, коли агенти переходять від ізольованих задач до наскрізних робочих процесів. Компанії вже досліджують агентів, які ведуть переговори щодо контрактів, виконують фінансові транзакції, координують ланцюги постачання та керують складними операційними процесами. Коли ці системи працюють із кількома точками прийняття рішень, вплив однієї помилки може швидко спричиняти ланцюгові наслідки.

Агент служби підтримки, який зазнає невдачі, втрачає тікет. Фінансовий агент, який зазнає невдачі, може втратити капітал. Операційний агент, який зазнає невдачі, може затримати цілу виробничу лінію.
Компанії, які зрештою досягнуть успіху з корпоративним ШІ, не будуть тими, хто впровадив агентів першим. Вони будуть тими, хто впровадив агентів, яким справді можна довіряти.

Довіра — це не функція, яку додають наприкінці розробки. Це інженерна дисципліна: вона починається з того, як системи тестують, як оцінюють їхню поведінку під тиском і як розуміють режими відмов задовго до того, як ці агенти будь-коли торкнуться виробничих навантажень.

Nvidia надає підприємствам потужні інструменти для створення автономних агентів. Складніше питання — і саме воно визначатиме, чи ці системи досягнуть успіху в реальному світі, — чи організації інвестують у рівній мірі в інфраструктуру, необхідну, щоб довести готовність цих агентів.


Про автора

Абхішек Саксена — керівник із стратегії та зростання в Sentient, open-source платформі ШІ, що будує інфраструктуру для надійних автономних агентів. Раніше Абхішек обіймав посади в Polygon Technology, Apple та InMobi, і має MBA з Harvard Business School.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити