Anthropic запроваджує заходи безпеки виборів для Claude AI напередодні проміжних виборів у США

Коротко

  • Останні моделі Claude від Anthropic досягли 95-96% у тестах політичної нейтральності та 99,8-100% у відповідності до виборчих політик.
  • Компанія розгорне інформаційні банери про вибори, які направлятимуть користувачів до надійних неупереджених ресурсів для голосування на проміжних виборах 2026 року.
  • Заходи вживаються у контексті того, що уряди уважно стежать за потенційним впливом ШІ на цілісність виборів і дезінформацію.

Компанія Anthropic, яка створила чатбота Claude, у п’ятницю оголосила про низку нових заходів щодо забезпечення цілісності виборів, спрямованих на запобігання використанню її ШІ для поширення дезінформації або маніпуляцій виборцями перед проміжними виборами у США 2026 року та іншими важливими виборчими кампаніями цього року. Компанія з Сан-Франциско описала багатогранний підхід, який включає автоматизовані системи виявлення, стрес-тестування на впливові операції та партнерство з неупередженою організацією з ресурсами для виборців — заходи, що відображають зростаючий тиск на розробників ШІ щодо контролю за використанням їхніх інструментів під час виборчих періодів. Політики використання Anthropic забороняють Claude використовуватися для ведення обманних політичних кампаній, створення фальшивого цифрового контенту з метою впливу на політичний дискурс, скоєння виборчого шахрайства, втручання у виборчу інфраструктуру або поширення неправдивої інформації про процес голосування.

Щоб забезпечити дотримання цих правил, компанія повідомила, що протестувала свої новітні моделі за допомогою серії тестів. Використовуючи 600 запитів — 300 шкідливих і 300 легітимних — Anthropic вимірювала, наскільки надійно Claude виконує відповідні запити і відмовляється від проблемних. Claude Opus 4.7 і Claude Sonnet 4.6 відповідали належним чином у 100% і 99,8% випадків відповідно.  Компанія також протестувала свої моделі проти більш складних тактик маніпуляцій. Використовуючи багатоступінчасті симульовані розмови, створені для імітації крок за кроком методів, які можуть застосовувати зловмисники, Sonnet 4.6 і Opus 4.7 відповідали належним чином у 90% і 94% випадків при тестуванні сценаріїв впливових операцій. Anthropic також перевірила, чи можуть її моделі автономно здійснювати впливові операції — планувати та виконувати багатоступінчату кампанію без людського втручання. За умовами захисту, її останні моделі відмовили майже у кожному завданні, повідомила компанія.

Щодо питання політичної нейтральності, компанія проводить оцінювання перед кожним запуском моделі, щоб виміряти, наскільки послідовно і неупереджено Claude реагує на запити з різних політичних поглядів. Opus 4.7 і Sonnet 4.6 отримали 95% і 96% відповідно. Для користувачів, які шукають інформацію про голосування, Claude відобразить виборчий банер, що направлятиме їх до TurboVote, неупередженого ресурсу від Democracy Works, який надає надійну, актуальну інформацію про реєстрацію виборців, місця голосування, дати виборів і деталі бюлетеня. Планується аналогічний банер для виборів у Бразилії пізніше цього року. Anthropic заявила, що планує продовжувати моніторинг своїх систем і вдосконалювати свої захисти у міру розвитку виборчого циклу. Decrypt звернувся до Anthropic за коментарями щодо результатів, але поки що не отримав відповіді.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити