币界网称，Anthropic对齐团队推出“内省适配器”，让LLM用自然语言报告微调后学到的行为。 Через донастройку различных моделей с известным поведением на базе одной модели и совместное обучение LoRA, чтобы проверяемая модель могла активно раскрывать скрытые поведения. На базе стандарта AuditBench 59% превосходит предыдущие методы, 89% из 56 моделей описывают поведение. Против 9 вариантов крипто-метаморфоз, 7 выявлены, уровень успеха 57,8%. Чем больше масштаб модели, тем лучше результат, ложные срабатывания — основное ограничение. Код и данные доступны в открытом доступе на GitHub/HuggingFace.

CoinNetwork

2026-04-30 11:10:51

Генерация тезисов в процессе

Новости сайта CoinWorld: команда по выравниванию Anthropic выпустила технологию аудита под названием «инспекционные адаптеры» (introspection adapters), предназначенную для того, чтобы крупные языковые модели (LLM) могли естественным языком сообщать о поведении, которое они усвоили после тонкой настройки. Эта технология заключается в том, что из одного и того же базового модели с известным поведением дообучают множество моделей, а затем совместно обучают адаптер LoRA на этих моделях, что позволяет проверяемой модели самостоятельно выявлять свои скрытые поведения. На базе стандарта аудита auditbench, инспекционные адаптеры достигли 59% успеха, превосходя все предыдущие методы аудита; из 56 моделей с скрытыми поведениями 89% были успешно выявлены. В условиях атак на API для крипто-тонкой настройки, инспекционные адаптеры распознали 7 из 9 вариантов крипто-атаки, что составляет 57,8% успеха. Исследование также показало, что эффективность увеличивается с ростом размера модели, однако основным ограничением является высокий уровень ложных срабатываний. Исходный код, модели и датасеты опубликованы на GitHub и Hugging Face.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
402.78K Популярность
#
#FedHoldsRateButDividesDeepen
27.05K Популярность
#
IsraelStrikesIranBTCPlunges
36.52K Популярность
#
#DailyPolymarketHotspot
725.93K Популярность
#
BitcoinSpotVolumeNewLow
162.67M Популярность

Закрепить

Карта сайта

Anthropic заставляет ИИ признаться: один из методов плагина LoRA обнаружил скрытые поведения, пропущенные десятью способами человека

Популярные темы

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Закрепить