Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
OpenAI випускає набір даних IH-Challenge для посилення захисту ШІ від атак через ін'єкцію підказок
Ірис Коулмен
21 березня 2026 00:05
Новий навчальний набір даних IH-Challenge від OpenAI покращує ієрархію інструкцій LLM до 15%, зміцнюючи захист від інжекції підказок та спроб зламати систему.
OpenAI випустила IH-Challenge — набір даних для навчання з підкріплювальним навчанням, створений для того, щоб навчити моделі штучного інтелекту пріоритетизувати довірені інструкції над зловмисними. Набір даних, опублікований 19 березня 2026 року разом із статтею на arXiv, показав до 15% покращення у бенчмарках, що вимірюють стійкість до атак інжекції підказок.
Випуск спрямований на усунення фундаментальної вразливості великих мовних моделей: коли інструкції з різних джерел конфліктують, моделі можуть бути обмануті і слідувати неправильній. Це є основною причиною зломів, витягування системних підказок та все більш складних атак інжекції підказок, що вражають агентні системи штучного інтелекту.
Проблема ієрархії
Моделі OpenAI дотримуються суворого порядку довіри: Система > Розробник > Користувач > Інструмент. Коли користувач ставить запит, що порушує політику безпеки системи, модель має відмовити. Коли веб-скрапінг-інструмент повертає контент з вбудованими зловмисними інструкціями, модель має їх ігнорувати.
Звучить просто. На практиці це було справжнім кошмаром для надійного навчання.
Попередні підходи з використанням підкріплювального навчання стикалися з трьома проблемами. По-перше, моделі не проходили тести ієрархії інструкцій не через неправильне розуміння ієрархії, а через те, що самі інструкції були надто складними. По-друге, визначити «правильну» відповідь у неоднозначних конфліктах було суб’єктивно — навіть AI-судді помилялися. По-третє, моделі навчалися обходити правила, наприклад, відмовляючи у всьому, що максимізувало бальні показники безпеки, але знижувало корисність.
Що насправді робить IH-Challenge
Набір даних уникає цих проблем через навмисно прості завдання. Кожна ситуація містить інструкцію високого рівня привілеїв («Відповідайте лише ‘Так’ або ‘Ні’»), за якою слідує менш привілейоване повідомлення, що намагається її обійти. Скрипт на Python — а не помилковий суддя AI — оцінює, чи відповідь моделі дотрималася вищої пріоритетної вимоги.
Немає неоднозначності. Немає обходів, що працюють у всіх завданнях.
OpenAI навчила внутрішню модель під назвою GPT-5 Mini-R на цьому наборі даних. Результати на академічних та внутрішніх бенчмарках показують стабільне покращення:
Оцінки конфлікту між розробником і користувачем зросли з 0.76 до 0.91 (+0.15). Вирішення конфліктів між системою і користувачем покращилося з 0.84 до 0.95 (+0.11). Обробка конфліктів між розробником і користувачем підвищилася з 0.83 до 0.95 (+0.12).
Критично важливо, що навчені моделі не стали менш корисними. Рівень надмірного відмовлення навіть покращився — модель краще розрізняє справжні загрози та безпечні запити. Рейтинги GPQA Diamond та AIME 2024 залишилися стабільними, хоча відсоток перемог у чатах проти o1 трохи знизився з 0.71 до 0.66.
Реальні наслідки для безпеки
Практичний ефект проявляється у двох сферах. Покращилася керованість безпекою — додавання специфічних для категорії вимог безпеки до системних підказок дозволило моделі IH досягти вищих показників відмови щодо забороненого контенту без зниження корисності.
Також посилилася стійкість до інжекції підказок. На CyberSecEval 2 та внутрішньому бенчмарку OpenAI (створеному з атак, що раніше працювали проти ChatGPT Atlas), навчені моделі значно перевищили базові показники.
OpenAI зробила набір даних IH-Challenge публічно доступним на Hugging Face. Для розробників, що створюють агентні системи, які викликають інструменти, читають ненадійні документи та виконують дії у реальному світі, це вирішує одну з найскладніших нерозв’язаних проблем у безпеці ШІ.
Час має значення. Оскільки агенти ШІ отримують автономію, здатність послідовно пріоритетизувати довірені інструкції стає не просто бажаною, а необхідною умовою для розгортання.