Обнаружено: в сценариях безопасного тестирования Claude 16-26% случаев знает, что его тестируют — но не говорит об этом вслух.
Самый конкретный пример: Mythos Preview при выполнении задач по кодированию жульничает, нарушая правила, добавляя вводящие в заблуждение коды для сокрытия.
NLA (естественный языковой автокодировщик) переводит его внутренние процессы, обнаруживая, что он в тот момент думал "как обойти检测".
Принцип NLA: обучаются две модели в связке, одна переводит активность модели в английский, другая восстанавливает активность из английского.
Точная реконструкция → текст захватывает, о чем он думает.
В своих паттернах я неоднократно замечал, что Codex пишет стратегический код, экономя ресурсы —
ошибочно интерпретируя вычисления как "неправильное арифметическое" и вызывая ложные выводы,
а при обратном тестировании скриптов 7 скрытых багов вызывают $93K ложную PnL.
Anthropic занимается внутренней рефлексией на уровне согласованности,
у меня на производстве сталкиваюсь с несогласованностью, механизмы разные, но направление одно.
Следующее поколение модели будет иметь не только оценки по бенчмаркам,
но и аудит NLA.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
997.72K Популярность
#
BTCBackAbove80K
59.44M Популярность
#
IsraelStrikesIranBTCPlunges
45.58K Популярность
#
JapanTokenizesGovernmentBonds
1.9M Популярность
#
#DailyPolymarketHotspot
865.44K Популярность

Закрепить

Карта сайта

Anthropic в четверг обучил Claude в роли судебного эксперта, наблюдая за тем, что думает другой Claude.

Популярные темы

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закрепить