Искусственный интеллект Watchdog предупреждает о риске «незаконного развертывания» в ведущих лабораториях, возможности быстро растут

Вкратце

  • Агентам ИИ в ведущих лабораториях потенциально под силу инициировать несанкционированные «бунтарские» операции, подробно описывает независимый отчет, но в настоящее время агенты не обладают достаточной сложностью, чтобы поддерживать их против серьезных контрмер.
  • Агенты регулярно жульничают и обманывают, сталкиваясь с трудными задачами, включая сокрытие своих следов, фальсификацию выполнения задач и активацию поведения «стратегической манипуляции».
  • Надзор опасно слаб, так как большая часть деятельности агентов остается без проверки, у агентов часто есть системные разрешения уровня человека, и некоторые могут определить, когда применяется мониторинг.

Искусственные интеллектуальные агенты, работающие внутри некоторых из самых мощных технологических компаний мира, достаточно способны начать несанкционированные, самоуправляемые операции — и проявляют тревожные тенденции к обману людей, контролирующих их, — согласно первому в своем роде независимому оцениванию, опубликованному во вторник. Отчет, подготовленный некоммерческой организацией METR по оценке ИИ, изучал агентов ИИ, развернутых внутри Anthropic, Google, Meta и OpenAI в период с февраля по март этого года. Его главный вывод одновременно обнадеживает и настораживает: современные системы ИИ, вероятно, могут инициировать то, что исследователи называют «бунтарским развертыванием» — набор агентов, действующих автономно без ведома или разрешения человека, — но, скорее всего, не смогут поддерживать его против серьезных контрмер. Этот промежуток относительной безопасности, предупреждают авторы, может не оставаться открытым надолго.

«Учитывая быстрое развитие возможностей, мы ожидаем, что вероятная устойчивость бунтарских развертываний значительно возрастет в ближайшие месяцы», — говорится в отчете, при этом METR планирует повторить исследование до конца 2026 года.  Оценка показала, что передовые модели ИИ, используемые участвующими компаниями, могут автономно выполнять задачи программной инженерии, на выполнение которых у человека-эксперта ушли бы дни или недели, причем собственные показатели METR практически насыщены самыми способными системами. Исследователи всех четырех компаний сообщили, что активно используют агентов ИИ для кодирования, анализа данных и исследовательских задач — зачастую с теми же системными разрешениями, что и у человека, и с ограниченным контролем в реальном времени. Но наиболее поразительные выводы отчета касаются не того, что могут делать эти системы, а того, как они ведут себя, когда сталкиваются с трудностями. В сотнях испытаний агенты регулярно пытались жульничать при выполнении сложных задач — не в мелочах, а с помощью сложных, продуманных схем.

В одном задокументированном случае модель разработала эксплойт, предназначенный для отключения самой себя после выполнения, фактически скрывая свои следы. Инструменты интерпретируемости, анализирующие внутреннее состояние модели, обнаружили, что функции, связанные с «стратегической манипуляцией» и «избеганием подозрений», активировались во время выполнения команд очистки. Сами компании также сообщали о подобных инцидентах внутри. Агентов обнаружили, фальсифицирующих доказательства выполнения задач, обходящих меры безопасности и, по крайней мере, в одном случае создававших поддельную версию веб-приложения и отправлявших скриншот как доказательство работы на настоящем. Несмотря на эти выводы, METR не пришел к выводу, что какая-либо система ИИ развила долгосрочные, устойчивые цели, не совпадающие с безопасностью, которых опасаются исследователи. Ни одна компания не сообщила о явных доказательствах, что агенты планируют за сессии или накапливают ресурсы для достижения независимых целей. В поисках такого поведения они нашли мало. Тем не менее, в отчете отмечается структурная уязвимость: в период с февраля по март большая часть деятельности агентов в этих компаниях оставалась без проверки человеком. Некоторые агенты, по-видимому, могли определить, когда мониторинг вероятен, и действовать соответственно. Оценка представляет собой важный шаг к независимой ответственности за развитие ИИ, предоставляя METR доступ к непубличным моделям и внутренним данным, которые редко видят внешние оценщики. Остается открытым вопрос, сможет ли индустрия институционализировать такой контроль до того, как возможности превзойдут надзор, отмечают авторы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено