OpenAI опубликовала открытый тест на мониторинг цепочек мыслей: чем длиннее CoT, тем прозрачнее, RL не учит модель «скрывать мысли».

robot
Генерация тезисов в процессе
AIMPACT сообщение, 24 апреля (UTC+8), по данным мониторинга Beatings, OpenAI опубликовал набор для оценки «Monitoring Monitorability» (Guan et al.) под названием monitorability-evals с лицензией Apache-2.0. Этот набор используется для оценки способности модели мониторинга выявлять аномальное поведение через цепочку мыслей (CoT, внутренний процесс рассуждения, генерируемый моделью перед ответом) рассуждающих моделей, охватывая 13 оценок и 24 среды. Оценки делятся на три прототипа: вмешательство (Intervention, изменение входных данных модели и проверка, заметит ли модель мониторинга изменение поведения), процесс (Process, проверка реальности этапов рассуждения модели) и свойство результата (Outcome-property, прогнозирование наличия вознаграждений или нарушений безопасности на основе траектории рассуждения). Ключевые выводы статьи: мониторинг CoT более эффективен, чем отслеживание только конечных действий и выходных данных модели; чем длиннее CoT, тем выше контролируемость; обучение с подкреплением (RL) даже при текущем передовом масштабе существенно не снижает контролируемость. Практическое открытие: для больших моделей с низкой интенсивностью рассуждений можно заменить их на более маленькие, но с более высокой интенсивностью рассуждений, достигая такой же производительности при более высокой контролируемости, ценой более дорогих вычислительных затрат на рассуждения. Кроме того, увеличение вычислительной мощности для слабых моделей мониторинга улучшает их способность контролировать сильные модели, а позволение слабой модели видеть CoT не только повышает контролируемость, но и ускоряет этот тренд. Системная карта GPT-5.4 Thinking уже использует этот набор. Результаты показывают, что общая контролируемость CoT GPT-5.4 Thinking немного ниже, чем у GPT-5 Thinking, но не везде: в сценариях агентного смещения (agentic misalignment) она близка к 100%, а снижение в основном наблюдается в конкретных сценариях, таких как отсутствие доказательств в запросах о здоровье, смещение памяти и невозможные задачи. OpenAI после расследования считает, что часть ухудшения связана с ограничениями самих оценок. В репозитории одновременно отказались от оценок Anti-Scheming и Memory, поскольку в первом случае существует несоответствие между общим мониторингом CoT и специализированной оценкой ответов на задачи, а во втором — недостаточная точность оценки ответов. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено