Агентам корпоративного ИИ нужны стресс-тесты, а не рекламные презентации

Абхишек Саксаена, руководитель отдела стратегии и развития, Sentient.


ФинТех развивается быстро. Новости повсюду, ясности — нет.

Еженедельный обзор FinTech предоставляет ключевые новости и события в одном месте.

Нажмите здесь, чтобы подписаться на рассылку FinTech Weekly

Читают руководители JP Morgan, Coinbase, BlackRock, Klarna и других компаний.


Корпоративный ИИ сталкивается с проблемой доверия, которую ничто из маркетинга не сможет решить. Компании начинают внедрять автономных агентов в производственные среды, где одна неправильная решение может привести к нарушению соответствия, неудачной оплате, ошибке в торговле, финансовым потерям или кризису репутации. И всё же стандарт оценки готовности агента к производству по-прежнему, по сути, представляет собой демонстрацию, которая впечатляет на сцене.

Запуск Nvidia NemoClaw на этой неделе показывает, как быстро автономные агенты переходят от экспериментов к корпоративным рабочим процессам. Платформа добавляет важные меры безопасности и конфиденциальности, включая изоляцию и контроль политик. Но безопасное развертывание — не то же самое, что готовность к производству. Более сложный вопрос — были ли эти системы протестированы на надежную работу в условиях неопределенности, крайних случаях и регулятивного давления.

Создать агента, который может выполнить задачу в контролируемой среде, относительно просто. Создать агента, способного справляться с неоднозначностью, восстанавливаться после неожиданных входных данных, поддерживать согласованность при тысячах одновременных взаимодействий и делать всё это, не нарушая регулятивных требований, — совсем другая инженерная задача.

Именно в этом месте многие корпоративные внедрения сталкиваются с проблемами. Разрыв между демонстрационной производительностью и надежностью в реальных условиях оказывается шире, чем ожидают большинство команд.

Агент, который безупречно отвечает на запрос службы поддержки в тестовой среде, может «галлюцинировать» о несуществующей политике возврата, когда сталкивается с крайним случаем, которого он никогда не видел. Агент, управляющий финансовыми потоками, может отлично работать на исторических данных, но принимать катастрофические решения при изменении рыночных условий вне его обучающего распределения. Логистический агент, координирующий цепочку поставок, может успешно моделировать ситуацию в симуляции, но столкнуться с трудностями, когда реальные задержки и противоречивые сигналы начинают накапливаться.

Те, кто проводил агентов через противоборственные тесты, быстро узнают эти паттерны. Системы работают — пока не сталкиваются с теми видами неоднозначности и давления, которые характерны для реальных операций.

Именно поэтому текущий фокус индустрии на создании новых рамок для агентов упускает важный аспект. Настоящее узкое место — не в скорости создания агентов, а в уверенности их оценки перед тем, как им доверят реальные задачи.

Что нужно корпоративному ИИ — это строгая, систематическая инфраструктура стресс-тестирования, специально предназначенная для автономных систем. Это означает преднамеренное введение таких входных данных, которые могут «сломать» агента в производственной среде. Это означает оценку поведения агентов в условиях неопределенности, противоречивой информации и крайних случаях, не встречающихся в чистых тестовых наборах данных. И это означает постоянную оценку, а не однократное тестирование перед запуском.

Открытый исходный код NemoClaw — это шаг в правильном направлении, потому что он дает разработчикам возможность видеть, как работают агенты. Невозможно правильно протестировать «черный ящик». Но только видимость недостаточна. Сам тестировочный инфраструктурный слой должен развиваться вместе с системами, которые он оценивает.

Разработка агентов должна предполагать, что режимы отказа неизбежны и должны выявляться на ранних этапах. Цель — не доказать, что агент работает один раз, а понять, как он ведет себя при непредсказуемых условиях. Такой подход меняет методы оценки агентов, проектирование защитных рамок и подготовку систем к развертыванию в условиях высокой ответственности.

Риск будет только расти по мере расширения задач агентов от изолированных до комплексных рабочих процессов. Компании уже исследуют агентов, которые ведут переговоры по контрактам, осуществляют финансовые транзакции, координируют цепочки поставок и управляют сложными операциями. Когда эти системы работают на нескольких этапах принятия решений, одна ошибка может быстро привести к цепной реакции.

Агент службы поддержки, который не справился, теряет заявку. Финансовый агент, потерявший деньги, — теряет капитал. Операционный агент, допустивший ошибку, может задержать всю производственную линию.
Компании, которые в итоге добьются успеха в корпоративном ИИ, не будут теми, кто первым внедрил агентов. Они будут теми, кто внедрил тех, кому действительно доверяют.

Доверие — это не функция, которую добавляют в конце разработки. Это инженерная дисциплина — она начинается с того, как тестируются системы, как оценивается их поведение под давлением и как понимаются их режимы отказа задолго до начала реальной работы.

Nvidia предоставляет предприятиям мощные инструменты для создания автономных агентов. Более сложный вопрос — и тот, который определит успех этих систем в реальном мире — в том, готовы ли организации инвестировать в инфраструктуру, необходимую для подтверждения готовности этих агентов.


Об авторе

Абхишек Саксаена — руководитель отдела стратегии и развития в Sentient, платформе с открытым исходным кодом, создающей инфраструктуру для надежных автономных агентов. Ранее работал в Polygon Technology, Apple и InMobi, имеет MBA Гарвардской бизнес-школы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить