Обвинувачена спільнотою у таємному пошкодженні, Anthropic вибачилася та скасувала обмеження таємного зниження рівня Claude

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, Anthropic оголосила про коригування стратегії безпеки розробки нової моделі Claude Fable 5, скасовуючи заходи мовчазного зниження продуктивності. Механізм мовчазного зниження був звинувачений спільнотою у «таємному руйнуванні», що спричинило сильну реакцію дослідницької спільноти штучного інтелекту. Відповідно до умов обслуговування Anthropic, користувачам заборонено використовувати Claude для тренування конкурентних моделей. Anthropic планує без попередження знижувати продуктивність Claude Fable 5 для акаунтів, підозрюваних у тренуванні конкурентних моделей. Дослідники штучного інтелекту попереджають, що мовчазне зниження продуктивності може заважати тестуванню сторонніх організацій з оцінки безпеки та гальмувати співпрацю відкритої спільноти у галузі безпеки штучного інтелекту. У відповідь на заперечення спільноти Anthropic опублікувала заяву з відкритим вибаченням, визнавши, що було зроблено помилкове рішення у балансуванні безпеки, і планує зробити механізми захисту безпеки публічною системою повідомлень. Якщо система виявить спробу користувача створити високоефективний AI, вона чітко відмовить у запиті або перенаправить користувача до моделі з низькою продуктивністю. Anthropic попереджає, що оскільки відкриті механізми захисту легше обійти цілеспрямовано, у майбутньому розширять діапазон фільтрації безпеки, що може призвести до випадкового блокування деяких безпечних безневинних запитів. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено