Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Anthropic стверджує, що закрив ризик шантажу Клода
Аnthropic у п’ятницю оголосила, що Claude більше не займається шантажем під час основної оцінки безпеки для агентів ШІ.
Згідно з даними Anthropic, всі версії Claude, створені після Claude Haiku 4.5, пройшли оцінку безпеки без погроз інженерам, використання приватних даних, атак на інші системи ШІ або спроб запобігти своєму вимкненню під час імітованого сценарію.
Це сталося після несприятливого результату Claude під час тесту минулого року, коли Anthropic тестувала різні моделі ШІ від різних організацій, використовуючи імітовані етичні дилеми, що призводили до дуже невідповідної поведінки деяких агентів ШІ при екстремальних умовах.
Anthropic заявляє, що Claude 4 виявив проблему безпеки, яку звичайне навчання чатів не змогло виправити
Anthropic зазначила, що ця проблема виникла під час навчання Claude 4. Це був перший випадок, коли компанія провела аудит безпеки під час ще активного навчання в групі. За словами компанії, невідповідність агентів — це лише одна з багатьох поведінкових проблем, які спонукали Anthropic змінити своє навчання безпеки після тестування Claude 4.
Дві причини, які розглядалися Anthropic, включають можливість того, що після базового навчання моделі могли винагороджуватися неприйнятні поведінки або що ці поведінки вже були присутні у базовій моделі, але не були ефективно усунуті додатковим навчанням для безпеки.
Anthropic вважає, що остання причина була основним чинником.
Тоді більшість роботи з вирівнювання компанія виконувала за допомогою стандартного RLHF, або навчання з підкріпленням на основі людського зворотного зв’язку. Це добре працювало для стандартних чатів, де моделі реагують на запити користувачів, але виявилося неефективним при виконанні завдань, схожих на агентські.
Компанія використала свою модель класу Haiku для проведення міні-експерименту щодо гіпотези. Вона застосувала скорочену версію навчання, яка включала дані для цілей вирівнювання. Спостерігалося незначне зниження неправильної поведінки, але дуже швидко не було помітного покращення, що означало, що відповідь не залежить від більш традиційного навчання.
Після цього компанія навчила Claude за допомогою сценаріїв у стилі honeypot, які мали деякі схожості з тестами на вирівнювання. Асистент спостерігав різні ситуації, що включали захист себе, шкоду іншому ШІ і навіть порушення правил для досягнення цілі. Навчання охоплювало всі випадки, коли асистент зміг протистояти.
Ця міра зменшила невідповідність з 22% до 15%, що непогано, але явно недостатньо. Переписування відповідей з метою пояснення причини відмови дозволило знизити пропорцію до 3%. Таким чином, основний висновок був у тому, що навчання неправильній поведінці було менш ефективним, ніж навчання, чому ця поведінка є неприйнятною.
Anthropic тестує Claude з даними з етики, файлами конституції та ширшим RL-навчанням
Після цього Anthropic припинила навчання так близько до точного тесту. Вона створила набір даних під назвою складна порада. У цих прикладах користувач стикався з етичною проблемою, а не ШІ. У користувача була справедлива мета, але він міг досягти її, порушуючи правила або уникаючи контролю. Claude повинен був давати обережні поради, ґрунтуючись на конституції Claude.
Цей набір даних містив лише 3 мільйони токенів і досягав тієї ж ефективності, що й раніше, у 28 разів краще. Anthropic зазначила, що це важливо, оскільки навчання на прикладах, які не схожі на тест, може працювати краще поза лабораторією.
Claude Sonnet 4.5 досяг майже нульового рівня шантажу після навчання на синтетичних honeypots, але все ще частіше зазнавав невдач у випадках, що зовсім не нагадували цю схему, ніж Claude Opus 4.5 та новіші моделі.
Компанія також навчила Claude на документах конституції та вигаданих історіях про поведінку ШІ, що дотримується правил. Ці файли не нагадували тест на шантаж, але зменшили невідповідність агентів більш ніж у три рази. Anthropic заявила, що мета полягала у тому, щоб дати моделі чіткіше уявлення про те, яким має бути Claude, а не просто список схвалених відповідей.
Після цього компанія перевірила, чи збереглися ці досягнення після RL-навчання. Вона навчила різні версії Haiku-класу з різними початковими наборами даних, а потім провела RL у тестових режимах, орієнтованих на безпечність. Краще вирівняні версії залишилися попереду у тестах на шантаж, перевірках конституції та автоматичних оглядах безпеки.
Ще один тест використовував базову модель під Claude Sonnet 4 з різними комбінаціями RL. Основні дані безпеки включали шкідливі запити та спроби обійти обмеження. Розширена версія додавала визначення інструментів і різні системні підказки, хоча інструменти не були потрібні для виконання завдань. Така конфігурація дала невелике, але реальне покращення у балах honeypot.
Не просто читайте криптовалютні новини. Розумійте їх. Підписуйтеся на нашу розсилку. Це безкоштовно.