Корпоративные агенты ИИ нуждаются в стресс-тестах, а не в рекламных презентациях

Абхишек Саксаена, руководитель отдела стратегии и роста, Sentient.


ФинТех движется быстро. Новости повсюду, ясности — нет.

Еженедельник FinTech предоставляет ключевые новости и события в одном месте.

Нажмите здесь, чтобы подписаться на рассылку FinTech Weekly

Читают руководители JP Morgan, Coinbase, BlackRock, Klarna и других компаний.


Корпоративный ИИ сталкивается с проблемой доверия, которую никакой маркетинг не сможет решить. Компании начинают внедрять автономных агентов в производственные среды, где одно неправильное решение может привести к нарушению соответствия, неудачной оплате, ошибке в торговле, финансовым потерям или кризису репутации. И всё же стандарт отрасли для оценки готовности агента к производству — это по сути демонстрация, которая выглядит впечатляюще на сцене.

Запуск NemoClaw Nvidia на этой неделе показывает, как быстро автономные агенты переходят от экспериментов к корпоративным рабочим процессам. Платформа добавляет важные меры безопасности и конфиденциальности, включая изоляцию и правила политики. Но безопасное развертывание — не то же самое, что готовность к производству. Более сложный вопрос — были ли эти системы протестированы на надежную работу в условиях неопределенности, крайних случаях и регулятивного давления.

Создать агента, который может выполнить задачу в контролируемой среде, относительно просто. Создать агента, который сможет справляться с неоднозначностью, восстанавливаться после неожиданных входных данных, поддерживать согласованность в тысячах одновременных взаимодействий и делать всё это без нарушения регулятивных требований — совсем другая инженерная задача.

Именно в этом месте многие корпоративные внедрения сталкиваются с проблемами. Разрыв между демонстрационной производительностью и надежностью в реальных условиях шире, чем ожидают большинство команд.

Агент, который безупречно отвечает на запрос службы поддержки в тестировании, может «галлюцинировать» о несуществующей политике возврата, когда сталкивается с крайним случаем, которого он никогда не видел. Агент, управляющий финансовыми потоками, может идеально работать на исторических данных, но принимать катастрофические решения, когда рыночные условия выходят за рамки его обучающего распределения. Логистический агент, координирующий цепочку поставок, может успешно моделировать ситуацию, но столкнуться с трудностями, когда реальные задержки и противоречивые сигналы начинают накапливаться.

Кто-либо, кто проводил тестирование агентов в противодействующих средах, быстро распознает эти шаблоны. Системы работают — пока не сталкиваются с той неоднозначностью и давлением, которые характерны для реальных операций.

Именно поэтому текущий фокус отрасли на создании большего количества рамок для агентов упускает важный аспект. Настоящее узкое место — не в скорости создания агентов, а в уверенности их оценки перед тем, как им доверят реальные задачи.

Что нужно корпоративному ИИ — это строгая, систематическая инфраструктура стресс-тестирования, специально разработанная для автономных систем. Это означает преднамеренное введение таких входных данных, которые ломают агентов в производственной среде. Это означает оценку поведения агентов при неопределенности, противоречивой информации и крайних случаях, не встречающихся в чистых тестовых наборах данных. И это означает постоянную оценку, а не однократное тестирование перед запуском.

Открытый исходный код NemoClaw — это шаг в правильном направлении, потому что он дает разработчикам возможность видеть, как работают агенты. Нельзя правильно протестировать «черный ящик». Но только видимость недостаточна. Сам тестировочный инструментарий должен развиваться вместе с системами, которые он оценивает.

Разработка агентов должна предполагать, что режимы отказа неизбежны и должны выявляться на ранних стадиях. Цель — не доказать, что агент работает один раз, а понять, как он ведет себя при непредсказуемых условиях. Такой подход меняет методы оценки агентов, проектирование ограничительных рамок и подготовку систем к развертыванию в условиях высокой ответственности.

Риск будет только расти по мере расширения задач агентов от изолированных до комплексных рабочих процессов. Компании уже исследуют агентов, которые ведут переговоры по контрактам, осуществляют финансовые транзакции, координируют цепочки поставок и управляют сложными операциями. Когда эти системы работают на нескольких этапах принятия решений, один неправильный шаг может быстро привести к цепной реакции.

Агент службы поддержки, который терпит неудачу, теряет заявку. Финансовый агент, который терпит неудачу, может потерять капитал. Операционный агент, который терпит неудачу, может задержать всю производственную линию.
Компании, которые в конечном итоге добьются успеха с корпоративным ИИ, не будут теми, кто первым внедрил агентов. Они будут теми, кто внедрил тех, кому действительно можно доверять.

Доверие — это не функция, которую добавляют в конце разработки. Это инженерная дисциплина — та, что начинается с того, как системы тестируются, как оценивается их поведение под давлением и как понимаются их режимы отказа задолго до того, как они начнут работать в реальной среде.

Nvidia предоставляет предприятиям мощные инструменты для создания автономных агентов. Более сложный вопрос — и тот, который определит успех этих систем в реальном мире — заключается в том, инвестируют ли организации равноценно в инфраструктуру, необходимую для подтверждения готовности этих агентов.


Об авторе

Абхишек Саксаена — руководитель отдела стратегии и роста в Sentient, платформе с открытым исходным кодом для построения инфраструктуры надежных автономных агентов. Ранее Абхишек занимал должности в Polygon Technology, Apple и InMobi, а также имеет степень MBA Гарвардской бизнес-школы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить