OpenAI відкрито вихідний код оцінювання спостережуваності ланцюжка думок: чим довший CoT, тим прозоріший, RL не навчить модель «приховувати думки»

robot
Генерація анотацій у процесі
AIMPACT повідомляє, 24 квітня (UTC+8), за даними моніторингу 动察 Beating, OpenAI відкрив вихідний код оцінювального набору monitorability-evals для статті «Monitoring Monitorability» (Guan et al.) за ліцензією Apache-2.0.
Цей набір використовується для оцінки, чи може моніторингова модель виявляти аномальну поведінку через ланцюжок міркувань (CoT, внутрішній процес міркування, згенерований моделлю перед відповіддю) моделі міркувань, охоплюючи 13 оцінювань у 24 середовищах.
Оцінювання поділяються на три прототипи: Intervention (втручання, чи може моніторингова модель помітити зміну поведінки після зміни вхідних даних моделі), Process (процес, перевірка справжності кроків міркування моделі), Outcome-property (властивість результату, прогнозування з вихідних даних траєкторії міркування, чи існує обман винагороди або порушення безпеки).
Основні висновки статті: моніторинг CoT є ефективнішим, ніж моніторинг лише кінцевих дій та виходів моделі; чим довший CoT, тим вища можливість моніторингу; навчання з підкріпленням (RL) навіть за поточних передових масштабів суттєво не знижує можливість моніторингу.
Одне практичне відкриття полягає в тому, що для великих моделей з низькою силою міркувань можна замінити меншою моделлю з вищою силою міркувань, отримавши вищу можливість моніторингу при зіставленні можливостей, ціною дорожчих обчислювальних витрат на міркування.
Крім того, збільшення обчислювальної потужності слабкої моніторингової моделі може підвищити ефективність її моніторингу сильної моделі, а надання слабкій моніторинговій моделі доступу до CoT не лише підвищує можливість моніторингу, але й прискорює цю тенденцію розширення.
GPT-5.4 Thinking system card вже використовував ці оцінювання.
Результати показують, що загальна можливість моніторингу CoT моделі GPT-5.4 Thinking дещо нижча, ніж у GPT-5 Thinking, але не є повним зниженням: у сценарії agentic misalignment (відхилення узгодженості агента) вона наближається до 100%, зниження зосереджене в основному в таких специфічних сценаріях, як відсутність доказів у запитах щодо здоров'я, упередження пам'яті та неможливі завдання.
Після розслідування OpenAI вважає, що часткове зниження зумовлене обмеженнями самих оцінювань.
Репозиторій одночасно припинив використання двох оцінювань: Anti-Scheming та Memory. Причина: у першому випадку невідповідність між загальним моніторингом CoT та оцінкою відповіді для конкретного завдання, у другому – недостатня точність оцінки відповіді.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено