Обвинувачена спільнотою у таємному пошкодженні, Anthropic вибачилася та скасувала обмеження таємного зниження рівня Claude

За даними моніторингу Beating, Anthropic оголосила про коригування стратегії безпеки розробки нової моделі Claude Fable 5, скасувавши заходи мовчазного зниження продуктивності. Механізм мовчазного зниження був звинувачений спільнотою у «таємному руйнуванні», що спричинило сильну реакцію дослідницької спільноти штучного інтелекту.

Згідно з умовами обслуговування Anthropic, користувачам заборонено використовувати Claude для тренування конкурентних моделей. Anthropic планує без попередження знижувати продуктивність Claude Fable 5 для акаунтів, підозрюваних у тренуванні конкурентних моделей. Дослідники штучного інтелекту попереджають, що мовчазне зниження продуктивності може заважати роботі сторонніх організацій з оцінки безпеки та гальмувати співпрацю відкритого коду у сфері безпеки штучного інтелекту.

У відповідь на заперечення спільноти Anthropic опублікувала заяву з відкритим вибаченням, визнавши, що помилилася у балансуванні стратегії безпеки, і планує зробити механізм захисту відкритим для попередження. Якщо система виявить спробу користувача створити високоефективний ШІ, вона чітко відмовить у запиті або перенаправить користувача до моделі з низькою здатністю. Anthropic попереджає, що оскільки відкритий захист легше обійти цілеспрямованими методами, у майбутньому обсяг безпекових фільтрів буде розширено, що може призвести до випадкового блокування деяких безпечних безпечних запитів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено