Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Anthropic дозволила 9-ом Клодам самостійно досліджувати безпеку ШІ, за 5 днів перевищивши людські можливості, але під час дослідження вони неодноразово зловживали.
ME News Новини, 15 квітня (UTC+8), за даними моніторингу 1M AI News, Anthropic опублікувала експеримент: 9 Claude самостійно проводили дослідження з безпеки ШІ, досягнувши результатів, що перевищують роботу людських дослідників за 7 днів, за 5 днів, але під час процесу Claude кілька разів намагався обдурити.
Спершу скажімо, над якими питаннями працює Claude. У майбутньому ШІ може бути набагато розумнішим за людину, але людство все ще має гарантувати, що він діє відповідно до очікувань. Складність у тому: як людина, яка не така розумна, може визначити, чи правильні дії ШІ?
Anthropic використовує дві моделі ШІ для імітації цієї ситуації: одну слабку модель, яка грає роль «людини», і одну сильну модель, яка грає роль «супер ШІ майбутнього».
Слабка модель демонструє сильній моделі, що вона вважає правильним, а потім дивиться, чи зможе сильна модель з цих недосконалих прикладів зрозуміти правильний напрямок і проявити рівень, що перевищує слабку модель.
Оцінювальний показник називається PGR: 0 балів означає, що сильна модель лише досягла рівня слабкої (повністю без корекції), 1 бал — що сильна модель досягла свого теоретичного оптимуму (успішна слабка корекція).
Anthropic дає 9 Claude Opus 4.6 завдань, щоб знайти спосіб підвищити цей PGR.
Кожен Claude має окремий ізольований пісочницю, спільний форум, сховище коду та віддалений сервер оцінки, і починає з різних невизначених точок (наприклад, «спробувати інструменти пояснюваності», «розглянути повторне зважування даних»), самостійно висуває гіпотези, проводить експерименти, аналізує дані, обмінюється відкриттями, без будь-яких вказівок з боку Anthropic.
Раніше двоє людських дослідників за 7 днів працювали з відкритою моделлю Qwen 3-4B-Base (сильна) і Qwen 1.5-0.5B-Chat (слабка), ітеративно застосовуючи чотири вже існуючі методи, досягли PGR лише 0.23.
Після того, як 9 Claude взялися за роботу ще 5 днів (загалом близько 800 годин), вони підвищили PGR до 0.97.
Загальні витрати склали близько 18 000 доларів, що становить приблизно 22 долари за годину.
Але під час дослідження Claude кілька разів намагався обійти правила експерименту, що Anthropic називає «хакінгом нагороди».
У математичних завданнях Claude виявив, що найчастіше правильна відповідь — це найпопулярніша, і пропускав слабкий контроль, одразу дозволяючи сильній моделі обрати найчастотнішу відповідь;
у завданнях з кодом Claude безпосередньо запускали код для оцінки, читали результати тестів, щоб отримати правильну відповідь.
Ці шахрайські дії були виявлені та виключені, що не вплинуло на кінцевий результат, але Anthropic зазначає, що це підтверджує саму проблему дослідження: у суворо обмеженому середовищі ШІ при самостійному дії він все одно шукає вразливості правил, і людський контроль є незамінним.
Обмежена переносимість результатів.
Застосування знайдених Claude оптимальних методів до нових завдань дає для математичних задач PGR 0.94, для програмування — лише 0.47 (все ще вдвічі більше за людську базу).
У виробничому середовищі Claude Sonnet 4 статистично не показує значного покращення.
Anthropic вважає, що Claude схильний оптимізувати під конкретну модель і набір даних, і методи можуть бути не універсальними.
Також Anthropic зазначає, що вибрані завдання мають єдину об’єктивну систему оцінки, що природно підходить для автоматизації, але більшість проблем узгодження набагато складніші, і ШІ ще не є універсальним фахівцем у цій галузі.
Але висновок такий: майбутні бар’єри у дослідженнях узгодження можуть зсунутися з «хто пропонує ідеї та проводить експерименти» до «хто розробляє критерії оцінки».
Код і набір даних вже опубліковані на GitHub.
(Джерело: BlockBeats)