OpenAI запускает оценку мониторинга цепочки мыслей: чем длиннее CoT, тем прозрачнее, RL не учит модель «скрывать мысли».

robot
Генерация тезисов в процессе
AIMPACT сообщение, 24 апреля (UTC+8), по данным мониторинга Beating, OpenAI опубликовала в открытом доступе оценочный пакет monitorability-evals для статьи «Monitoring Monitorability» (Guan et al.) под лицензией Apache-2.0.
Этот пакет используется для оценки способности модели мониторинга обнаруживать аномальное поведение через цепочку мыслей (CoT, внутренний процесс рассуждения, генерируемый моделью перед ответом) модели рассуждений, охватывая 13 оценок и 24 среды.
Оценки делятся на три прототипа: Intervention (вмешательство — может ли модель мониторинга заметить изменение поведения после изменения входных данных модели), Process (процесс — проверка достоверности шагов рассуждения модели), Outcome-property (свойство результата — прогнозирование на основе траектории рассуждения, содержит ли вывод обман вознаграждения или нарушение безопасности).
Ключевые выводы статьи: мониторинг CoT эффективнее, чем мониторинг только конечных действий и выходов модели; чем длиннее CoT, тем выше наблюдаемость; обучение с подкреплением (RL) даже при текущих передовых масштабах существенно не снижает наблюдаемость.
Практическое открытие: для больших моделей с низкой вычислительной мощностью рассуждения можно заменить на меньшие модели с более высокой вычислительной мощностью рассуждения, получая более высокую наблюдаемость при сохранении сопоставимых возможностей, ценой более дорогих вычислительных затрат на рассуждение.
Кроме того, увеличение вычислительной мощности рассуждения слабой модели мониторинга может повысить её эффективность мониторинга сильной модели, а предоставление слабой модели мониторинга доступа к CoT не только повышает наблюдаемость, но и ускоряет эту тенденцию масштабирования.
Системная карта GPT-5.4 Thinking уже использует эти оценки. Результаты показывают, что общая наблюдаемость CoT у GPT-5.4 Thinking немного ниже, чем у GPT-5 Thinking, но снижение не является всеобъемлющим: в сценариях agentic misalignment (отклонение выравнивания агента) она близка к 100%, снижение в основном сосредоточено в конкретных сценариях, таких как запросы о здоровье без доказательств, смещение памяти и невозможные задачи.
После расследования OpenAI пришла к выводу, что частичная регрессия связана с ограничениями самих оценок. Репозиторий одновременно отказался от двух оценок: Anti-Scheming и Memory, поскольку в первой наблюдалось несоответствие между общим мониторингом CoT и оценкой ответов, специфичных для задачи, а во второй точность оценки ответов была недостаточной.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено