AIMPACT Новости, 24 апреля (UTC+8), по данным мониторинга Beating, OpenAI открыла исходный код набора для оценки статьи «Monitoring Monitorability» (Guan et al.) — monitorability-evals, лицензия Apache-2.0. Этот набор предназначен для измерения способности модели мониторинга обнаруживать аномальное поведение через цепочку рассуждений (CoT, внутренний процесс рассуждения, генерируемый моделью перед ответом) модели рассуждений, охватывая 13 оценок и 24 среды. Оценки делятся на три прототипа: Intervention (интервенционный, изменяет входные данные модели и проверяет, замечает ли модель мониторинга изменения поведения), Process (процессный, проверяет, являются ли шаги рассуждения модели реальными), Outcome-property (свойство результата, предсказывает, есть ли в выводе обман вознаграждения или нарушение безопасности на основе траектории рассуждений). Ключевые выводы статьи: мониторинг CoT эффективнее, чем мониторинг только конечных действий и выходных данных модели; чем длиннее CoT, тем выше контролируемость; обучение RL даже на текущем передовом масштабе существенно не снижает контролируемость. Практическое открытие: для больших моделей с низкой интенсивностью рассуждений можно заменить их на более маленькие, но с более высокой интенсивностью рассуждений, достигая сопоставимых возможностей при более высокой контролируемости, ценой более дорогих вычислительных затрат на рассуждения. Кроме того, увеличение вычислительных мощностей для рассуждений слабой модели мониторинга может улучшить её эффект при мониторинге сильной модели, а предоставление слабой модели мониторинга доступа к CoT не только повышает контролируемость, но и ускоряет эту тенденцию расширения. Карточка системы GPT-5.4 Thinking уже использует этот набор оценок. Результаты показывают, что общая контролируемость CoT у GPT-5.4 Thinking немного ниже, чем у GPT-5 Thinking, но падение не повсеместно: в сценариях agentic misalignment (расхождение агента) она близка к 100%, падение в основном сосредоточено в конкретных сценариях, таких как отсутствие доказательств по медицинским запросам, смещение памяти и невозможные задачи. После расследования OpenAI считает, что частичный регресс обусловлен ограничениями самих оценок. Репозиторий одновременно отказался от двух оценок — Anti-Scheming и Memory, из-за несоответствия между общим мониторингом CoT и оценкой ответов для конкретных задач в первом случае и недостаточной точностью оценки ответов во втором. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
gStocksTokenizedStocksLive
4,79M Популярность
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,05M Популярность
#
IsraelStrikesIranBTCPlunges
68,2K Популярность
#
PredictWorldCupShare20000U
201,31K Популярность
#
ETHBreaks1700
152,57M Популярность

Закреплено

Карта сайта

OpenAI открывает оценку мониторинга цепочки мыслей: чем длиннее CoT, тем прозрачнее, RL не научит модель «скрывать мысли».

Популярные темы

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Закреплено