OpenAI открывает оценку мониторинга цепочки мыслей: чем длиннее CoT, тем прозрачнее, RL не научит модель «скрывать мысли».

robot
Генерация тезисов в процессе
AIMPACT Новости, 24 апреля (UTC+8), по данным мониторинга Beating, OpenAI открыла исходный код набора для оценки статьи «Monitoring Monitorability» (Guan et al.) — monitorability-evals, лицензия Apache-2.0. Этот набор предназначен для измерения способности модели мониторинга обнаруживать аномальное поведение через цепочку рассуждений (CoT, внутренний процесс рассуждения, генерируемый моделью перед ответом) модели рассуждений, охватывая 13 оценок и 24 среды. Оценки делятся на три прототипа: Intervention (интервенционный, изменяет входные данные модели и проверяет, замечает ли модель мониторинга изменения поведения), Process (процессный, проверяет, являются ли шаги рассуждения модели реальными), Outcome-property (свойство результата, предсказывает, есть ли в выводе обман вознаграждения или нарушение безопасности на основе траектории рассуждений). Ключевые выводы статьи: мониторинг CoT эффективнее, чем мониторинг только конечных действий и выходных данных модели; чем длиннее CoT, тем выше контролируемость; обучение RL даже на текущем передовом масштабе существенно не снижает контролируемость. Практическое открытие: для больших моделей с низкой интенсивностью рассуждений можно заменить их на более маленькие, но с более высокой интенсивностью рассуждений, достигая сопоставимых возможностей при более высокой контролируемости, ценой более дорогих вычислительных затрат на рассуждения. Кроме того, увеличение вычислительных мощностей для рассуждений слабой модели мониторинга может улучшить её эффект при мониторинге сильной модели, а предоставление слабой модели мониторинга доступа к CoT не только повышает контролируемость, но и ускоряет эту тенденцию расширения. Карточка системы GPT-5.4 Thinking уже использует этот набор оценок. Результаты показывают, что общая контролируемость CoT у GPT-5.4 Thinking немного ниже, чем у GPT-5 Thinking, но падение не повсеместно: в сценариях agentic misalignment (расхождение агента) она близка к 100%, падение в основном сосредоточено в конкретных сценариях, таких как отсутствие доказательств по медицинским запросам, смещение памяти и невозможные задачи. После расследования OpenAI считает, что частичный регресс обусловлен ограничениями самих оценок. Репозиторий одновременно отказался от двух оценок — Anti-Scheming и Memory, из-за несоответствия между общим мониторингом CoT и оценкой ответов для конкретных задач в первом случае и недостаточной точностью оценки ответов во втором. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено