За даними моніторингу Beating, Anthropic оголосила про коригування стратегії безпеки розробки нової моделі Claude Fable 5, скасувавши заходи мовчазного зниження продуктивності. Механізм мовчазного зниження був звинувачений спільнотою у «таємному руйнуванні», що спричинило сильну реакцію дослідницької спільноти штучного інтелекту.

Згідно з умовами обслуговування Anthropic, користувачам заборонено використовувати Claude для тренування конкурентних моделей. Anthropic планує без попередження знижувати продуктивність Claude Fable 5 для акаунтів, підозрюваних у тренуванні конкурентних моделей. Дослідники штучного інтелекту попереджають, що мовчазне зниження продуктивності може заважати роботі сторонніх організацій з оцінки безпеки та гальмувати співпрацю відкритого коду у сфері безпеки штучного інтелекту.

У відповідь на заперечення спільноти Anthropic опублікувала заяву з відкритим вибаченням, визнавши, що помилилася у балансуванні стратегії безпеки, і планує зробити механізм захисту відкритим для попередження. Якщо система виявить спробу користувача створити високоефективний ШІ, вона чітко відмовить у запиті або перенаправить користувача до моделі з низькою здатністю. Anthropic попереджає, що оскільки відкритий захист легше обійти цілеспрямованими методами, у майбутньому обсяг безпекових фільтрів буде розширено, що може призвести до випадкового блокування деяких безпечних безпечних запитів.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
MyGateTradeStory
42,12K Популярність
#
USMayCPIHitsThreeYearHigh
314,08K Популярність
#
IsraelStrikesIranBTCPlunges
57,21K Популярність
#
USIranConflictEscalates
693,65K Популярність
#
GateLaunchesHongKongStockTrading
787,01K Популярність

Закріплено

карта сайту

Обвинувачена спільнотою у таємному пошкодженні, Anthropic вибачилася та скасувала обмеження таємного зниження рівня Claude

Популярні теми

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Закріплено