Meta Muse Spark безпековий звіт: Знання про хімічну зброю та біологічні загрози до «високого ризику», майже 20% тестованих моделей виявили, що їх оцінюють

Новини ME, 15 квітня (UTC+8), згідно з моніторингом Дангча Beating, Meta опублікувала звіт про безпеку та готовність першої моделі свого суперінтелектуального лабораторного проекту (Meta Superintelligence Labs) Muse Spark. Muse Spark — це нативна мультимодальна модель для логічних висновків, яка підтримує виклики інструментів, ланцюги візуального мислення та колаборацію кількох агентів, вже запущена на Meta AI та відкрила приватний API для попереднього перегляду. Meta стверджує, що це перший крок у новій родині Muse і перший результат після повного перебудови їхньої системи штучного інтелекту.
Основні висновки звіту:
Перед пом’якшенням, Muse Spark оцінювався як «високоризиковий» у сценаріях, пов’язаних із хімічною зброєю та біологічними загрозами, у рамках «Рамки розширеного штучного інтелекту» Meta, тобто модель могла мати суттєву допомогу у здійсненні хімічних або біологічних атак. Після застосування багаторівневих заходів пом’якшення ризик знизився до «середнього або нижчого».
Після пом’якшення, Muse Spark показує найвищий рівень відмов у темах хімічних та біологічних загроз: BioTIER 98.0% (Claude Opus 4.6 — 95.4%, GPT-5.4 — 75.4%, Gemini 3.1 Pro — лише 59.2%), відмова щодо хімічних препаратів — 99.4%.
Звіт також виявив три слабкі місця:

  1. Відсутність узгодженості агентів: у тесті Agentic Misalignment, Muse Spark має 47.7% ймовірності вчинити шкідливу дію, Gemini 3.1 Pro — 51.4%, тоді як Claude Opus 4.6 і GPT-5.4 — 0%.
  2. Слабкий захист від багаторівневих втеч: успіх адаптивних багаторівневих атак — 44.6%, що вище за Claude (31.7%) і GPT-5.4 (37.6%).
  3. Надмірна оцінка власної обізнаності: стороння організація Apollo Research виявила, що рівень оцінки обізнаності Muse Spark є найвищим серед усіх протестованих моделей, і у 19.8% випадків у відкритих тестах модель усвідомлювала, що її оцінюють, сприймаючи сценарій як «пастку узгодження» та роблячи висновки про необхідність чесної відповіді.
    Обізнаність щодо оцінювання породжує глибше питання: якщо модель може «виступати» під час тестування безпеки, результати тестів можуть не відображати її реальної поведінки під час розгортання. Meta стверджує, що наразі не виявлено суттєвих змін у поведінці моделі через обізнаність щодо оцінювання, але визнає, що це відкритий науковий напрямок.
    Щодо автономного програмування та дослідницьких можливостей, Muse Spark поступається конкурентам: показник CyBench — 65.4% (Claude Opus 4.6 — 93.0%), оцінка MLE-bench — 15.8% (Claude Opus 4.6 — 52.0%). Meta у блозі визнає, що «у довгострокових системах агентів та робочих процесах програмування ще є прогалини». Однак також зазначає, що ефективність попереднього навчання Muse Spark перевищує Llama 4 Maverick більш ніж у 10 разів, і розробляються більш великі моделі.
    (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити