Корпоративные агенты ИИ нуждаются в стресс-тестах, а не в рекламных презентациях

Abhishek Saxena, руководитель отдела стратегии и роста, Sentient.


ФинТех движется быстро. Новости повсюду, ясности — нет.

FinTech Weekly предоставляет ключевые новости и события в одном месте.

Нажмите здесь, чтобы подписаться на рассылку FinTech Weekly

Читают руководители JP Morgan, Coinbase, BlackRock, Klarna и других компаний.


Корпоративный ИИ сталкивается с проблемой доверия, которую не решить маркетингом. Компании начинают внедрять автономных агентов в производственные среды, где одно неправильное решение может привести к нарушению соответствия, неудачной оплате, ошибке в торговле, финансовым потерям или кризису репутации. И всё же стандарт отрасли для оценки готовности агента к производству — это по сути демонстрация, которая выглядит впечатляюще на сцене.

Запуск Nvidia NemoClaw на этой неделе показывает, как быстро автономные агенты переходят от экспериментов к корпоративным рабочим процессам. Платформа добавляет важные меры безопасности и конфиденциальности, включая изоляцию и правила политики. Но безопасное развертывание — не то же самое, что готовность к производству. Более сложный вопрос — были ли эти системы протестированы на надежную работу в условиях неопределенности, крайних случаях и регулятивного давления.

Создать агента, который может выполнить задачу в контролируемой среде, относительно просто. Создать агента, который сможет справляться с неоднозначностью, восстанавливаться после неожиданных входных данных, поддерживать согласованность в тысячах одновременных взаимодействий и делать всё это без нарушения регулятивных требований — совсем другая инженерная задача.

Именно в этом месте многие корпоративные внедрения сталкиваются с проблемами. Разрыв между демонстрационной производительностью и надежностью в реальных условиях шире, чем ожидают большинство команд.

Агент, который безупречно отвечает на запрос службы поддержки в тестировании, может «галлюцинировать» о несуществующей политике возврата, когда сталкивается с крайним случаем, которого он никогда не видел. Агент, управляющий финансовыми потоками, может отлично работать на исторических данных, но принимать катастрофические решения, когда рыночные условия выходят за рамки его обучения. Логистический агент, координирующий цепочку поставок, может успешно моделировать ситуацию, но столкнуться с трудностями, когда реальные задержки и противоречивые сигналы начинают накапливаться.

Кто-либо, кто проводил тестирование агентов в условиях противодействия, быстро узнает эти паттерны. Системы работают — пока не сталкиваются с той неоднозначностью и давлением, которые характерны для реальных операций.

Именно поэтому текущий фокус отрасли на создании большего количества рамочных систем для агентов упускает важный аспект. Настоящий узкий проход — не в скорости создания агентов, а в уверенности в их оценке перед тем, как им доверят реальные задачи.

Что нужно корпоративному ИИ — это строгая, систематическая инфраструктура стресс-тестирования, специально разработанная для автономных систем. Это означает преднамеренное введение таких входных данных, которые ломают агентов в производственной среде. Это означает оценку поведения агентов в условиях неопределенности, противоречивой информации и крайних случаях, которые не встречаются в чистых тестовых наборах данных. И это означает постоянную оценку, а не однократное тестирование перед запуском.

Открытый подход NemoClaw — это шаг в правильном направлении, потому что он дает разработчикам возможность видеть, как работают агенты. Нельзя правильно протестировать «черный ящик». Но только видимость недостаточна. Саму инфраструктуру тестирования нужно развивать вместе с системами, которые она оценивает.

Разработка агентов должна предполагать, что режимы отказа неизбежны и должны выявляться на ранних стадиях. Цель — не доказать, что агент работает один раз, а понять, как он ведет себя при непредсказуемых условиях. Такой подход меняет методы оценки агентов, дизайн ограничительных рамок и подготовку систем к развертыванию в условиях высокой ответственности.

Риски будут только расти по мере расширения задач агентов от изолированных до комплексных рабочих процессов. Компании уже исследуют агентов, которые ведут переговоры по контрактам, осуществляют финансовые транзакции, координируют цепочки поставок и управляют сложными операциями. Когда эти системы работают на нескольких этапах принятия решений, один ошибочный шаг может быстро привести к цепной реакции.

Агент службы поддержки, который терпит неудачу, теряет заявку. Финансовый агент, который ошибается, может потерять капитал. Операционный агент, который не справляется, может задержать всю производственную линию.
Компании, которые в итоге добьются успеха с корпоративным ИИ, не будут теми, кто первым внедрил агентов. Они будут теми, кто внедрил тех, кому действительно можно доверять.

Доверие — это не функция, которую добавляют в конце разработки. Это инженерная дисциплина — она начинается с того, как тестируются системы, как оценивается их поведение под давлением и как понимаются их режимы отказа задолго до того, как они начнут работать в реальной среде.

Nvidia предоставляет предприятиям мощные инструменты для создания автономных агентов. Более сложный вопрос — и тот, который определит успех этих систем в реальном мире — в том, готовы ли организации инвестировать в инфраструктуру, необходимую для подтверждения готовности этих агентов.


Об авторе

Abhishek Saxena — руководитель отдела стратегии и роста в Sentient, платформе с открытым исходным кодом для создания инфраструктуры доверенных автономных агентов. Ранее Abhishek занимал должности в Polygon Technology, Apple и InMobi, а также имеет степень MBA Гарвардской бизнес-школы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить