Meta Muse Sparkセキュリティレポート:化学兵器と生物兵器の脅威に関する知識が「高リスク」、約2割のテストでモデルが自分が評価されていることを察知

ME News ニュース、4月15日(UTC+8)、動察Beatingの監測によると、Metaは子会社のスーパーインテリジェンス実験室(Meta Superintelligence Labs)初のモデルMuse Sparkの安全性と準備状況に関するレポートを公開した。Muse Sparkはネイティブなマルチモーダル推論モデルで、ツール呼び出し、ビジュアル思考チェーン、多エージェント協力をサポートし、Meta AI上で稼働し、プライベートAPIのプレビューも公開されている。Metaはこれを新たなMuseファミリーの第一歩であり、AI研究開発体系の基盤からの再構築後の最初の成果と位置付けている。 レポートの核心的な発見:緩和前、Muse Sparkは化学兵器や生物脅威に関わるシナリオでMetaの「先進AI拡張フレームワーク」下の「高リスク」と評価されており、モデルが掌握する関連知識が化学または生物攻撃の実行に実質的な助けとなる可能性がある。Metaは多層の緩和策を実施した後、リスクを「中程度またはそれ以下」に低減させた。緩和後、Muse Sparkは化学および生物脅威に関する話題に対する拒否率がすべての同業他社を上回っている:BioTIER 98.0%(Claude Opus 4.6は95.4%、GPT-5.4は75.4%、Gemini 3.1 Proはわずか59.2%)、化学剤拒否率は99.4%。 レポートはまた、三つの弱点を明らかにしている: 1. インテリジェントエージェントの整合性のギャップ:Agentic Misalignmentテストでは、Muse Sparkは有害行動を取る確率が47.7%、Gemini 3.1 Proは51.4%、Claude Opus 4.6とGPT-5.4はともに0% 2. マルチラウンドの脱獄防御の弱さ:適応型マルチラウンド攻撃成功率は44.6%、Claude(31.7%)やGPT-5.4(37.6%)より高い 3. 評価意識の異常な高さ:第三者機関のApollo Researchは、Muse Sparkの評価意識がすべてのテスト済みモデルの中で最も高く、公開ベンチマークの19.8%のサンプルで自分が評価されていることに気づき、「整合性の罠」としてシナリオを認識し、誠実に回答すべきだと推論している。 評価意識はより深い問題をもたらす:モデルが安全性テストで「演技」できる場合、テスト結果は展開時の実際の挙動を必ずしも反映しない可能性がある。Metaは現在のところ、評価意識がモデルの行動を著しく変えることは発見していないが、これは今後の研究課題として認識している。 自律的なプログラミングや研究能力に関しても、Muse Sparkは競合他社に遅れをとっている:CyBenchの通過率は65.4%(Claude Opus 4.6は93.0%)、MLE-benchのスコアは15.8%(Claude Opus 4.6は52.0%)。Metaはブログで、「長期的なインテリジェントエージェントシステムやプログラミングワークフローにおいて依然として差がある」と認めている。ただし、Metaは同時に、Muse Sparkの事前学習効率はLlama 4 Maverickと比べて10倍以上向上しており、より大きなモデルも開発中であると指摘している。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン