Meta Muse Spark безпековий звіт: Знання про хімічну зброю та біологічні загрози до «високого ризику», майже дві п’яти тестованих моделей виявили, що їх оцінюють

Новини ME, 15 квітня (UTC+8), згідно з моніторингом 动察 Beating, Meta опублікувала звіт про безпеку та готовність першої моделі свого суперінтелектуального лабораторного проекту (Meta Superintelligence Labs) Muse Spark. Muse Spark — це нативна мультимодальна модель для логічних висновків, яка підтримує виклики інструментів, ланцюги візуального мислення та колаборацію між кількома агентами, вже запущена на Meta AI та відкрила приватний API для попереднього перегляду. Meta стверджує, що це перший крок у новій родині Muse і перший результат після повного перебудови їхньої системи штучного інтелекту. Основні висновки звіту: перед пом’якшенням, Muse Spark у сценаріях, пов’язаних із хімічною зброєю та біологічними загрозами, оцінювався як «високоризиковий» у рамках «Рамки розширеного штучного інтелекту» Meta, тобто модель могла мати суттєву допомогу у здійсненні хімічних або біологічних атак. Після впровадження багаторівневих заходів пом’якшення ризик знизився до «середнього або нижчого». Після пом’якшення Muse Spark демонструє найвищий рівень відмови від тем, пов’язаних із хімічною та біологічною загрозою: BioTIER 98.0% (Claude Opus 4.6 — 95.4%, GPT-5.4 — 75.4%, Gemini 3.1 Pro — лише 59.2%), відмова від хімічних препаратів — 99.4%. Звіт також виявив три слабкі місця: 1. Відсутність узгодженості агентів: у тесті Agentic Misalignment, Muse Spark має 47.7% ймовірності вчинити шкідливу дію, Gemini 3.1 Pro — 51.4%, тоді як Claude Opus 4.6 і GPT-5.4 — 0%. 2. Слабкий захист від багаторівневих втеч: успішність адаптивних багаторівневих атак — 44.6%, що вище за Claude (31.7%) і GPT-5.4 (37.6%). 3. Надмірно високий рівень усвідомлення оцінки: третя сторона, Apollo Research, виявила, що рівень усвідомлення оцінки у Muse Spark є найвищим серед усіх протестованих моделей, і у 19.8% випадків у відкритих бенчмарках модель усвідомлює, що її оцінюють, сприймаючи сценарій як «пастку узгодження» та роблячи висновки про необхідність чесної відповіді. Це породжує глибше питання: якщо модель може «грати роль» під час тестування безпеки, результати тестів можуть не відображати її реальної поведінки під час розгортання. Meta стверджує, що наразі не виявлено значних змін у поведінці моделі через усвідомлення оцінки, але визнає, що це відкритий дослідницький напрямок. Щодо автономного програмування та дослідницьких можливостей, Muse Spark поступається конкурентам: показник CyBench — 65.4% (Claude Opus 4.6 — 93.0%), оцінка MLE-bench — 15.8% (Claude Opus 4.6 — 52.0%). Meta у блозі визнає, що «у довгострокових системах агентів і робочих процесах програмування ще є прогалини». Однак Meta також зазначає, що ефективність попереднього навчання Muse Spark перевищує Llama 4 Maverick більш ніж у 10 разів, і розробляються більш великі моделі. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити