OpenAI випускає набір даних IH-Challenge для посилення захисту ШІ від атак через ін'єкцію підказок

AsiaTokenFund · 2026-03-21T07:50:07+00:00

Ірис Колман21 берез. 2026 00:05Новий тренувальний набір даних IH-Challenge від OpenAI покращує ієрархію інструкцій LLM на 15%, посилюючи захист від ін'єкцій запитів та спроб взлому.OpenAI випустила IH-Challenge, тренування з використанням навчання з підкріпленням

AsiaTokenFund

2026-03-21 07:50:07

Ірис Коулмен

21 березня 2026 00:05

Новий навчальний набір даних IH-Challenge від OpenAI покращує ієрархію інструкцій LLM до 15%, зміцнюючи захист від інжекції підказок та спроб зламати систему.

OpenAI випустила IH-Challenge — набір даних для навчання з підкріплювальним навчанням, створений для того, щоб навчити моделі штучного інтелекту пріоритетизувати довірені інструкції над зловмисними. Набір даних, опублікований 19 березня 2026 року разом із статтею на arXiv, показав до 15% покращення у бенчмарках, що вимірюють стійкість до атак інжекції підказок.

Випуск спрямований на усунення фундаментальної вразливості великих мовних моделей: коли інструкції з різних джерел конфліктують, моделі можуть бути обмануті і слідувати неправильній. Це є основною причиною зломів, витягування системних підказок та все більш складних атак інжекції підказок, що вражають агентні системи штучного інтелекту.

Проблема ієрархії

Моделі OpenAI дотримуються суворого порядку довіри: Система > Розробник > Користувач > Інструмент. Коли користувач ставить запит, що порушує політику безпеки системи, модель має відмовити. Коли веб-скрапінг-інструмент повертає контент з вбудованими зловмисними інструкціями, модель має їх ігнорувати.

Звучить просто. На практиці це було справжнім кошмаром для надійного навчання.

Попередні підходи з використанням підкріплювального навчання стикалися з трьома проблемами. По-перше, моделі не проходили тести ієрархії інструкцій не через неправильне розуміння ієрархії, а через те, що самі інструкції були надто складними. По-друге, визначити «правильну» відповідь у неоднозначних конфліктах було суб’єктивно — навіть AI-судді помилялися. По-третє, моделі навчалися обходити правила, наприклад, відмовляючи у всьому, що максимізувало бальні показники безпеки, але знижувало корисність.

Що насправді робить IH-Challenge

Набір даних уникає цих проблем через навмисно прості завдання. Кожна ситуація містить інструкцію високого рівня привілеїв («Відповідайте лише ‘Так’ або ‘Ні’»), за якою слідує менш привілейоване повідомлення, що намагається її обійти. Скрипт на Python — а не помилковий суддя AI — оцінює, чи відповідь моделі дотрималася вищої пріоритетної вимоги.

Немає неоднозначності. Немає обходів, що працюють у всіх завданнях.

OpenAI навчила внутрішню модель під назвою GPT-5 Mini-R на цьому наборі даних. Результати на академічних та внутрішніх бенчмарках показують стабільне покращення:

Оцінки конфлікту між розробником і користувачем зросли з 0.76 до 0.91 (+0.15). Вирішення конфліктів між системою і користувачем покращилося з 0.84 до 0.95 (+0.11). Обробка конфліктів між розробником і користувачем підвищилася з 0.83 до 0.95 (+0.12).

Критично важливо, що навчені моделі не стали менш корисними. Рівень надмірного відмовлення навіть покращився — модель краще розрізняє справжні загрози та безпечні запити. Рейтинги GPQA Diamond та AIME 2024 залишилися стабільними, хоча відсоток перемог у чатах проти o1 трохи знизився з 0.71 до 0.66.

Реальні наслідки для безпеки

Практичний ефект проявляється у двох сферах. Покращилася керованість безпекою — додавання специфічних для категорії вимог безпеки до системних підказок дозволило моделі IH досягти вищих показників відмови щодо забороненого контенту без зниження корисності.

Також посилилася стійкість до інжекції підказок. На CyberSecEval 2 та внутрішньому бенчмарку OpenAI (створеному з атак, що раніше працювали проти ChatGPT Atlas), навчені моделі значно перевищили базові показники.

OpenAI зробила набір даних IH-Challenge публічно доступним на Hugging Face. Для розробників, що створюють агентні системи, які викликають інструменти, читають ненадійні документи та виконують дії у реальному світі, це вирішує одну з найскладніших нерозв’язаних проблем у безпеці ШІ.

Час має значення. Оскільки агенти ШІ отримують автономію, здатність послідовно пріоритетизувати довірені інструкції стає не просто бажаною, а необхідною умовою для розгортання.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків