OpenAI відкриває оцінку моніторингу ланцюжка міркувань: чим довший CoT, тим прозоріший, RL не навчить модель «приховувати думки»

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 24 квітня (UTC+8), за даними моніторингу Dongcha Beating, OpenAI опублікував у відкритому доступі набір для оцінювання статті «Monitoring Monitorability» (Guan et al.) — monitorability-evals, ліцензія Apache-2.0. Цей набір використовується для вимірювання здатності моделі моніторингу виявляти аномальну поведінку через ланцюжок міркувань (CoT, внутрішній процес міркувань, який модель генерує перед відповіддю) моделі міркувань, охоплюючи 13 оцінювань і 24 середовища. Оцінювання поділяються на три прототипи: Intervention (втручання, чи може модель моніторингу виявити зміни в поведінці після зміни вхідних даних моделі), Process (процес, перевірка, чи є кроки міркувань моделі справжніми), Outcome-property (властивість результату, прогнозування, чи є в результаті, отриманому з траєкторії міркувань, шахрайство з винагородою або порушення безпеки). Ключові висновки статті: моніторинг CoT є більш ефективним, ніж моніторинг лише кінцевих дій і результатів моделі; чим довший CoT, тим вища моніторованість; навіть за сучасних масштабів навчання з підкріпленням (RL) суттєво не знижує моніторованість. Практичне відкриття: для великих моделей з низькою інтенсивністю міркувань можна замінити їх на менші, але з вищою інтенсивністю міркувань, що забезпечує відповідну продуктивність і вищу моніторованість, хоча ціна обчислювальних ресурсів для міркувань зростає. Крім того, збільшення обчислювальних ресурсів для міркувань слабкої моделі моніторингу може покращити її ефективність у моніторингу сильної моделі, а надання слабкій моделі моніторингу доступу до CoT не лише підвищує моніторованість, але й прискорює цю тенденцію масштабування. Системна карта мислення GPT-5.4 вже використовує цей набір оцінювань. Результати показують, що загальна моніторованість CoT GPT-5.4 Thinking трохи нижча, ніж у GPT-5 Thinking, але не є загальним зниженням: у сценаріях agentic misalignment (відхилення вирівнювання агента) вона близька до 100%, а зниження зосереджене на таких конкретних сценаріях, як відсутність доказів у медичних запитах, зміщення пам'яті та неможливі завдання. Після розслідування OpenAI вважає, що деякі регресії зумовлені обмеженнями самого оцінювання. Репозиторій одночасно вилучив оцінювання Anti-Scheming та Memory, оскільки в першому випадку існує невідповідність між загальним моніторингом CoT і оцінкою відповідей, специфічних для завдання, а в другому — недостатня точність оцінки відповідей. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено