Згідно з Coinjie.com, команда з вирівнювання Anthropic представила «інтроспективний адаптер», який дозволяє великим мовним моделям (LLM) звітувати природною мовою про поведінку, вивчену після тонкого налаштування. За допомогою тонкого налаштування на одній базовій моделі кількох моделей із відомою поведінкою та спільного навчання LoRA, модель, що проходить аудит, активно розкриває приховану поведінку. На базі стандарту AuditBench 59% показників перевищують попередні методи, а 89% з 56 моделей описують поведінку. У боротьбі з 9 видами крипто-варіантів 7 були ідентифіковані, успіх становить 57,8%. Чим більша модель, тим кращий результат, основною обмежуючою проблемою є хибнопозитивні результати. Код та дані доступні у відкритому доступі на GitHub/HuggingFace.

CoinNetwork

2026-04-30 11:10:51

Генерація анотацій у процесі

Звіт з Coinjie.com: команда з вирівнювання Anthropic опублікувала технологію аудиту під назвою «інтроспекційні адаптери» (introspection adapters), яка має на меті дозволити великим мовним моделям (LLM) у природній мові повідомляти про поведінку, яку вони вивчили після тонкого налаштування. Ця технологія полягає у тому, що з одного й того ж базового моделі тонко налаштовується багато моделей із відомою поведінкою, а потім на цих моделях спільно тренується LoRA-адаптер, що дозволяє аудованій моделі активно озвучувати свої приховані поведінки. На базі стандарту аудиту auditbench, інтроспекційні адаптери перевищили всі попередні методи аудиту з успіхом у 59%, з 56 моделей із прихованою поведінкою 89% вдалося успішно витягти опис поведінки. У разі атак на API для криптовалютного тонкого налаштування, інтроспекційні адаптери визначили 7 із 9 варіантів криптовалютних змін, з успіхом 57,8%. Дослідження також показало, що ефективність зростає із збільшенням масштабу моделі, основним обмеженням є високий рівень хибнопозитивних результатів. Код, моделі та датасети вже відкриті на GitHub та Hugging Face.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
402.78K Популярність
#
#FedHoldsRateButDividesDeepen
27.05K Популярність
#
IsraelStrikesIranBTCPlunges
36.52K Популярність
#
#DailyPolymarketHotspot
725.93K Популярність
#
BitcoinSpotVolumeNewLow
162.67M Популярність

Закріпити

карта сайту

Anthropic змушує ШІ зізнаватися: один плагін LoRA виявив приховану поведінку, яку пропустили 10 способів людського контролю

Популярні теми

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Закріпити