Корпоративные агенты ИИ нуждаются в стресс-тестах, а не в рекламных презентациях

Абхишек Саксена, руководитель по стратегии и росту, Sentient.


Финтех движется быстро. Новости повсюду — ясности нет.

FinTech Weekly доставляет ключевые истории и события в одном месте.

Нажмите здесь, чтобы подписаться на рассылку FinTech Weekly

Читают руководители в JP Morgan, Coinbase, BlackRock, Klarna и др.


Предприятийный ИИ сталкивается с проблемой доверия, которую нельзя решить никаким маркетингом. Компании начали развертывать автономных агентов в производственных средах, где одно неверное решение может привести к нарушению требований комплаенса, сбою платежа, торговой ошибке, финансовому убытку или репутационному кризису. И все же отраслевой стандарт оценки того, готов ли агент к production, по сути остается демонстрацией, которая впечатляет на сцене.

Запуск NemoClaw от Nvidia на этой неделе показывает, насколько быстро автономные агенты переходят от экспериментов к корпоративным рабочим процессам. Платформа добавляет важные меры безопасности и конфиденциальности, включая песочницы и политику-ограждения. Но надежное развертывание — это не то же самое, что производственная готовность. Самый сложный вопрос — были ли эти системы проверены на надежную работу в условиях неоднозначности, пограничных сценариев и регуляторного давления.

Построить агента, который может выполнить задачу в контролируемой среде, относительно просто. Построить агента, который умеет справляться с неоднозначностью, восстанавливаться после неожиданных вводных, сохранять согласованность при тысячах одновременных взаимодействий — и при этом делать все это, не нарушая регуляторные ограничения, — это совершенно другая инженерная задача.

Именно на этой разнице у многих корпоративных развертываний возникают проблемы. Разрыв между демонстрационной производительностью и производственной надежностью больше, чем ожидает большинство команд.

Агент, который безупречно обрабатывает запрос клиента в тестировании, может «галлюцинировать» политику возврата, которая не существует, когда его сталкивают с пограничным сценарием, которого он никогда не видел. Агент, управляющий финансовыми рабочими процессами, может показывать отличные результаты на исторических данных, но принимать катастрофические решения, когда рыночные условия выходят за пределы его обучающего распределения. Логистический агент, координирующий цепочку поставок, может успешно работать в симуляции, но испытывать трудности, когда в реальном мире задержки и противоречивые сигналы начинают накапливаться.

Любой, кто прогонял агентов через среду для противоборческого тестирования, быстро узнает эти паттерны. Системы работают — пока не столкнутся с теми видами неоднозначности и давления, которые и определяют реальные операции.

Вот почему нынешний отраслевой фокус на создании новых агентских фреймворков упускает критически важную часть пазла. Настоящее узкое место — не в том, как быстро компании могут создавать агентов. Проблема в том, насколько уверенно они могут оценивать их до того, как этим агентам поручат реальную ответственность.

Тому, что нужно enterprise AI, — это строгая, системная инфраструктура стресс-тестирования, разработанная специально для автономных систем. Это означает намеренное внедрение тех типов входных данных, которые «ломают» агентов в production. Это означает оценку того, как агенты ведут себя в условиях неопределенности, при противоречивой информации и в пограничных сценариях, которые не появляются в чистых наборах данных для бенчмарков. И это означает непрерывную оценку, а не разовую проверку перед запуском.

Открыто-исходный подход NemoClaw — шаг в правильном направлении, потому что он дает разработчикам видимость того, как агенты работают. Нельзя по-настоящему протестировать «черный ящик». Но одной видимости недостаточно. Сама инфраструктура тестирования должна развиваться вместе с теми системами, которые она оценивает.

При разработке агентов нужно исходить из того, что режимы отказа неизбежны, и их необходимо выявлять на ранней стадии. Цель не в том, чтобы доказать, что агент работает один раз, а в том, чтобы понять, как он ведет себя, когда условия становятся непредсказуемыми. Такой подход меняет то, как оценивают агентов, как проектируют ограждения и как готовят системы к развертыванию в средах с высокой ставкой.

Ставки будут только расти, когда агенты перейдут от изолированных задач к сквозным рабочим процессам. Предприятия уже изучают агентов, которые ведут переговоры по контрактам, выполняют финансовые транзакции, координируют цепочки поставок и управляют сложными операционными процессами. Когда эти системы работают в рамках множества точек принятия решений, последствия одной ошибки могут быстро каскадировать.

Агент поддержки клиентов, который выходит из строя, теряет тикет. Финансовый агент, который выходит из строя, может потерять капитал. Операционный агент, который выходит из строя, может задержать целую производственную линию.
Компании, которые в конечном итоге добьются успеха с enterprise AI, не будут теми, кто развернул агентов первым. Они будут теми, кто развернул агентов, которым действительно можно доверять.

Доверие — это не функция, которую добавляют в конце разработки. Это инженерная дисциплина — та, которая начинается с того, как системы тестируют, как оценивают их поведение под давлением и как понимают режимы отказа задолго до того, как они когда-либо коснутся производственной нагрузки.

Nvidia предоставляет предприятиям мощные инструменты для создания автономных агентов. Самый сложный вопрос — и тот, который определит, будут ли эти системы успешны в реальном мире, — инвестируют ли организации столь же активно в инфраструктуру, необходимую, чтобы доказать готовность этих агентов.


О авторе

Абхишек Саксена — руководитель по стратегии и росту в Sentient, открытой платформе ИИ, которая создает инфраструктуру для доверенных автономных агентов. Ранее Абхишек занимал должности в Polygon Technology, Apple и InMobi, и имеет MBA Гарвардской школы бизнеса.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить