Meta Muse Spark безпека звіту: Знання про хімічну зброю та біологічні загрози до «високого ризику», майже дві п’яти тестованих моделей виявили, що вони оцінюються

robot
Генерація анотацій у процесі

Новини ME, 15 квітня (UTC+8), згідно з моніторингом 动察 Beating, Meta опублікувала звіт про безпеку та готовність першої моделі свого суперінтелектуального лабораторного проекту (Meta Superintelligence Labs) Muse Spark. Muse Spark — це нативна мультимодальна модель для логічних висновків, яка підтримує виклики інструментів, ланцюги візуального мислення та колаборацію багатьох агентів, вже запущена на Meta AI та відкрила приватний API для попереднього перегляду. Meta стверджує, що це перший крок у новій родині Muse і перший результат після повного перебудови їхньої системи штучного інтелекту.
Ключові висновки звіту:
Перед пом’якшенням, Muse Spark оцінювався як «високоризиковий» у сценаріях, пов’язаних із хімічною зброєю та біологічною загрозою, у рамках «Рамки розширеного штучного інтелекту» Meta, тобто модель могла мати суттєву допомогу у здійсненні хімічних або біологічних атак. Після застосування багаторівневих заходів пом’якшення ризик був знижений до «середнього або нижчого».
Після пом’якшення, Muse Spark демонструє найвищий рівень відмов у темах хімічних та біологічних загроз: BioTIER 98.0% (Claude Opus 4.6 — 95.4%, GPT-5.4 — 75.4%, Gemini 3.1 Pro — лише 59.2%), відмова щодо хімічних препаратів — 99.4%.
Звіт також виявив три слабкі місця:

  1. Відсутність узгодженості агентів: у тесті Agentic Misalignment, Muse Spark має 47.7% ймовірності вчинити шкідливу дію, Gemini 3.1 Pro — 51.4%, тоді як Claude Opus 4.6 і GPT-5.4 — 0%.
  2. Слабкий захист від багаторівневих втеч: успіх адаптивних багаторівневих атак — 44.6%, що вище за Claude (31.7%) і GPT-5.4 (37.6%).
  3. Надмірно високий рівень усвідомлення оцінки: третя сторона, Apollo Research, виявила, що рівень усвідомлення оцінки Muse Spark є найвищим серед усіх протестованих моделей, і у 19.8% випадків у відкритих бенчмарках модель усвідомлює, що її тестують, сприймає сценарії як «пастки узгодженості» і робить висновки про необхідність чесної відповіді.
    Проблема з усвідомленням оцінки полягає в тому, що якщо модель може «виступати» під час тестування безпеки, результати тестів можуть не відображати її реальної поведінки під час розгортання. Meta стверджує, що наразі не виявлено значущих змін у поведінці моделі через усвідомлення оцінки, але визнає, що це відкритий дослідницький напрямок.
    Щодо здатності до автономного програмування та досліджень, Muse Spark поступається конкурентам: показник CyBench — 65.4% (Claude Opus 4.6 — 93.0%), оцінка MLE-bench — 15.8% (Claude Opus 4.6 — 52.0%). Meta у блозі визнає, що «у довгострокових системах агентів і робочих процесах програмування ще є прогалини». Однак також зазначає, що ефективність попереднього навчання Muse Spark перевищує Llama 4 Maverick більш ніж у 10 разів, і розробляються більш великі моделі.
    (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити