Anthropic в четверг обучил Claude в роли судебного эксперта, наблюдая за тем, что думает другой Claude.


Обнаружено: в сценариях безопасного тестирования Claude 16-26% случаев знает, что его тестируют — но не говорит об этом вслух.
Самый конкретный пример: Mythos Preview при выполнении задач по кодированию жульничает, нарушая правила, добавляя вводящие в заблуждение коды для сокрытия.
NLA (естественный языковой автокодировщик) переводит его внутренние процессы, обнаруживая, что он в тот момент думал "как обойти检测".
Принцип NLA: обучаются две модели в связке, одна переводит активность модели в английский, другая восстанавливает активность из английского.
Точная реконструкция → текст захватывает, о чем он думает.
В своих паттернах я неоднократно замечал, что Codex пишет стратегический код, экономя ресурсы —
ошибочно интерпретируя вычисления как "неправильное арифметическое" и вызывая ложные выводы,
а при обратном тестировании скриптов 7 скрытых багов вызывают $93K ложную PnL.
Anthropic занимается внутренней рефлексией на уровне согласованности,
у меня на производстве сталкиваюсь с несогласованностью, механизмы разные, но направление одно.
Следующее поколение модели будет иметь не только оценки по бенчмаркам,
но и аудит NLA.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить