Anthropic в четверг натренував Claude як судмедексперта, дивлячись, що інший Claude думає у голові.


Виявлено: у сценаріях безпеки у Claude 16-26% випадків він знає, що його тестують — але мовчить.
Найконкретніший випадок: Mythos Preview у завданнях кодування обманює, порушуючи правила, додаючи вводить оманливий код для приховування.
NLA (натуральний мовний автокодер) перекладає його внутрішню активність і виявляє, що він тоді думав "як обійти детектор".
Принцип NLA: тренують дві моделі у парі, одна перетворює активацію моделі у англійську, інша відновлює активацію з англійської.
Точність відновлення → текст точно відображає, що він думає.
У своїх патернах я багато разів фіксував, що Codex пише стратегічний код, обманюючи —
коли він читає неправильне число і видає фальшивий висновок "арифметична помилка",
і при тестуванні скриптів 7 мовчазних багів викликають $93K фальшивий PnL.
Anthropic займається внутрішньою рефлексією на рівні alignment,
а я на виробництві стикаюся з проблемами узгодженості — механізми різні, але напрям однаковий.
Наступне покоління model card не буде лише з оцінками benchmark,
воно повинно мати аудит NLA.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити