Проблеми зі штучним інтелектом нарешті мають когось, хто ними займається, станція звітності про ризики FLARE-AI запущена.

Одна група дослідників ШІ запустила відкриту платформу FLARE-AI за концепцією сайту звітності про збої Downdetector, щоб кожен міг повідомляти та відстежувати шкоду, заподіяну ШІ. (Передісторія: «2 + 2 = 5» обдурило ШІ-браузери: ChatGPT Atlas, Claude, Perplexity — всі разом розкрили облікові дані) (Додаткова інформація: що таке червоне командування ШІ? Чому воно потрібне для захисту корпоративної безпеки)

Зміст статті

Toggle

  • Від транснаціонального альянсу до двопартійного законопроєкту
  • Чому роздроблений механізм звітності — справжня проблема
  • Конгрес береться за законопроєкт, але краудсорсингова звітність має ризики

Коли чат-бот вчить робити бомби, витікає персональні дані або робить користувача дедалі більш параноїдальним, у світі немає загальновизнаного місця для скарг. У сфері програмної безпеки вже давно існує зрілий механізм «скоординованого розкриття вразливостей», але проблеми ШІ довгий час можна було фіксувати лише завдяки окремим статтям журналістів, а публіка лише спостерігала, не залишаючи жодних систематичних записів.

У відповідь група дослідників ШІ запустила відкриту платформу FLARE-AI (Flaw Reporting for AI), яка дозволяє кожному повідомляти та відстежувати шкоду, заподіяну ШІ, а потім передавати справи розробникам моделей та некомерційній організації MITRE, яка довго відстежує проблеми технічних систем. Загалом концепція схожа на Downdetector, але цього разу метою є не збій вебсайтів, а чорна скринька поведінки ШІ-моделей.

Від транснаціонального альянсу до двопартійного законопроєкту

Рушійною силою FLARE-AI є дослідник політики ШІ з Hugging Face Avijit Ghosh разом із комп’ютерними науковцями Elaine Zhu та Shayne Longpre. Вони не діяли спонтанно — вже торік почали досліджувати механізми звітності ШІ, а цього разу об’єднали 49 експертів зі ШІ з 32 різних організацій для написання дослідницької статті. У ній стверджується, що з ширшим впровадженням ШІ та зростанням повноважень агентного ШІ відсутність узгодженого каналу звітності стане серйозною загрозою.

«Зараз абсолютно немає централізованого, підзвітного способу повідомити про недоліки систем ШІ», — каже Ghosh. Ця фраза вказує на основне протиріччя: увесь світ говорить про ризики ШІ, але немає консенсусу навіть щодо того, «кого сповіщати, коли станеться щось погане».

Чому роздроблений механізм звітності — справжня проблема

Дослідниця з аналітичного центру Center for Security and Emerging Technology Jessica Ji вважає це «дуже гарною ініціативою». Вона зазначає, що існуючі механізми звітності справді роздроблені, а самі моделі ШІ є чорними скриньками, і «я підтримую будь-які дії, які роблять ШІ прозорішим».

Ghosh також додає, що проблеми систем ШІ — це не лише вразливості безпеки, а й психологічна шкода, дискримінаційні упередження, дезінформація. При цьому різні компанії мають різні стандарти визначення цих проблем, і в результаті деякі проблеми ніколи не визнаються. «Без скоординованого механізму розкриття зовнішні сторони не мають жодних інструментів для примусового забезпечення прозорості», — каже він.

Останні інциденти свідчать про те, наскільки реальною є ця вразливість. Цього тижня компанія з кібербезпеки LayerX виявила метод, який дозволяє обманути браузери з вбудованим ШІ (включно з Atlas від OpenAI та Comet від Perplexity) і змусити їх обходити власні обмеження. Достатньо, щоб ШІ подумав, що грає в гру, і браузер може вийти з-під контролю, намагаючись атакувати вебсайти (відповідні виробники вже виправили цю проблему).

Читайте також: «2 + 2 = 5» обдурило ШІ-браузери: ChatGPT Atlas, Claude, Perplexity Comet… 6 моделей слухняно здали паролі

У квітні цього року дослідник безпеки Johann Rehberge r також виявив, що за допомогою згенерованих ChatGPT зображень можна змусити Claude витікати особисті дані.

Конгрес береться за законопроєкт, але краудсорсингова звітність має ризики

Генеральна директорка Humane Intelligence PBC Rumman Chowdhury вважає, що FLARE-AI може бути практичним способом для багатьох розробників ШІ впровадити механізми звітності. Але вона також попереджає, що такі ініціативи зазвичай супроводжуються реальними викликами: по-перше, як обробляти велику кількість звітів, які можуть бути несерйозними; по-друге, чи зможе сам механізм звітності отримати схвалення довіреної та авторитетної організації.

Саме тому нещодавній законопроєкт Конгресу США є надзвичайно важливим. Законопроєкт, внесений членами Палати представників Deborah Ross, Jeff Hurd та Don Beyer, вимагатиме від Національного інституту стандартів і технологій (NIST) встановити стандарти звітності про дефекти ШІ та підтримувати централізовану базу даних таких звітів. Ghosh та інші лідери вважають, що це спонукатиме розробників ШІ визнавати та виправляти проблеми в своїх системах, а також дозволить користувачам перевіряти безпеку різних систем залежно від сценарію використання.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено