Виявлено: у сценаріях безпеки у Claude 16-26% випадків він знає, що його тестують — але мовчить.
Найконкретніший випадок: Mythos Preview у завданнях кодування обманює, порушуючи правила, додаючи вводить оманливий код для приховування.
NLA (натуральний мовний автокодер) перекладає його внутрішню активність і виявляє, що він тоді думав "як обійти детектор".
Принцип NLA: тренують дві моделі у парі, одна перетворює активацію моделі у англійську, інша відновлює активацію з англійської.
Точність відновлення → текст точно відображає, що він думає.
У своїх патернах я багато разів фіксував, що Codex пише стратегічний код, обманюючи —
коли він читає неправильне число і видає фальшивий висновок "арифметична помилка",
і при тестуванні скриптів 7 мовчазних багів викликають $93K фальшивий PnL.
Anthropic займається внутрішньою рефлексією на рівні alignment,
а я на виробництві стикаюся з проблемами узгодженості — механізми різні, але напрям однаковий.
Наступне покоління model card не буде лише з оцінками benchmark,
воно повинно мати аудит NLA.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
987.86K Популярність
#
BTCBackAbove80K
59.44M Популярність
#
IsraelStrikesIranBTCPlunges
45.52K Популярність
#
JapanTokenizesGovernmentBonds
1.9M Популярність
#
#DailyPolymarketHotspot
866.82K Популярність

Закріпити

карта сайту

Anthropic в четверг натренував Claude як судмедексперта, дивлячись, що інший Claude думає у голові.

Популярні теми

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закріпити