Разом із потоком капіталу, що вливається в ІІ, існує довгий і здебільшого нерозв’язаний перелік реальних перешкод для масового впровадження. Серед них — рекурсивне забруднення даних. Великі мовні моделі генерують величезні обсяги контенту, який потім використовується як навчальний матеріал для наступного покоління моделей. Помилки та галюцинації посилюються з кожним циклом. Це нагадує багаторазове копіювання копії: якість послідовно падає, і зрештою стає неможливо визначити, яким був початковий джерело. Індустрія вже звертається до синтетичних даних, щоб компенсувати нестачу якісного людського контенту, — однак це ризикує прискорити деградацію, а не усунути її. Ще серйознішою проблемою є отруєння даних. Зловмисники можуть навмисно спотворювати навчальний набір даних, і один раз впроваджений «вірус» залишається у моделі назавжди. Особливо небезпечний військовий сценарій: ІІ, навчений розпізнавати своїх і чужих на основі скомпрометованих даних, виявить приховану вразливість лише під час реального конфлікту. Зафіксовано, що для отруєння мовних моделей будь-якого розміру достатньо всього 250 шкідливих документів — це робить атаки на навчальні дані не гіпотетичною загрозою, а цілком актуальною проблемою кібербезпеки.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити