OpenAI відкриває оцінку моніторингу ланцюжка думок: чим довший CoT, тим прозоріший, RL не вчить модель "приховувати думки"

robot
Генерація анотацій у процесі
AIMPACT новини, 24 квітня (UTC+8), за даними моніторингу 动察 Beating, OpenAI відкрив набір для оцінювання monitorability-evals для статті «Monitoring Monitorability» (Guan et al.) під ліцензією Apache-2.0.
Цей набір використовується для оцінки здатності моделі моніторингу виявляти аномальну поведінку через ланцюжок мислення (CoT, внутрішній процес міркування, згенерований моделлю перед відповіддю) моделі міркування, охоплюючи 13 оцінювань та 24 середовища.
Оцінювання поділяється на три прототипи: Intervention (втручання, чи може модель моніторингу виявити зміни в поведінці після зміни входу моделі), Process (процес, перевірка чи реальні кроки міркування моделі), Outcome-property (властивість результату, прогнозування чи є винагорода за шахрайство або порушення безпеки з траєкторії міркування).
Основні висновки статті: моніторинг CoT є ефективнішим, ніж моніторинг лише кінцевих дій та виходів моделі; чим довший CoT, тим вища можливість моніторингу; навчання RL навіть при поточному передовому масштабі суттєво не знижує можливість моніторингу.
Одне практичне відкриття полягає в тому, що для великих моделей з низькою потужністю міркування можна перейти на менші, але більш потужні моделі міркування, отримуючи вищу можливість моніторингу з відповідною здатністю, ціною дорожчих обчислень для міркування.
Крім того, збільшення обчислювальної потужності слабких моделей моніторингу може покращити їх ефективність моніторингу сильних моделей, а надання слабким моделям моніторингу доступу до CoT не лише підвищує можливість моніторингу, але й прискорює цю тенденцію розширення.
Картка системи GPT-5.4 Thinking вже використовувала це оцінювання. Результати показують, що загальна можливість моніторингу CoT GPT-5.4 Thinking дещо нижча, ніж у GPT-5 Thinking, але не є повним зниженням: у сценаріях agentic misalignment (відхилення вирівнювання агента) вона наближається до 100%, зниження в основному зосереджено в конкретних сценаріях, таких як відсутність доказів у запитах про здоров'я, упередження пам'яті та неможливі завдання.
Після розслідування OpenAI вважає, що частковий регрес пов'язаний з обмеженнями самого оцінювання. Репозиторій одночасно відмовився від двох оцінювань Anti-Scheming та Memory, оскільки в першому випадку існує невідповідність між загальним моніторингом CoT та спеціальним оцінюванням відповідей для завдання, а в другому точність оцінювання відповідей є недостатньою.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено