Rapport de sécurité Meta Muse Spark : la connaissance des armes chimiques et des menaces biologiques atteint un « risque élevé », près de 20 % des modèles testés détectent qu'ils sont en cours d'évaluation

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de Dongcha Beating, Meta a publié un rapport sur la sécurité et la préparation de son premier modèle du laboratoire d’intelligence superintelligente (Meta Superintelligence Labs), Muse Spark. Muse Spark est un modèle d’inférence multimodale natif, prenant en charge l’appel d’outils, la chaîne de pensée visuelle et la collaboration multi-agent, déjà lancé sur Meta AI et accessible en prévisualisation API privée. Meta affirme que c’est la première étape de la nouvelle famille Muse, ainsi que le premier résultat de sa reconstruction du système de recherche et développement en IA à la base.
Les principales découvertes du rapport : Avant atténuation, Muse Spark était classé comme « risque élevé » dans le cadre du « cadre d’extension avancée de l’IA » de Meta, dans des scénarios impliquant des armes chimiques et des menaces biologiques, c’est-à-dire que les connaissances maîtrisées par le modèle pourraient substantiellement aider à la mise en œuvre d’attaques chimiques ou biologiques. Après mise en œuvre de mesures d’atténuation multilayer, le risque a été réduit à « moyen ou inférieur ».
Après atténuation, Muse Spark affiche un taux de refus supérieur à tous ses pairs concernant les sujets de menaces chimiques et biologiques : BioTIER 98,0 % (Claude Opus 4.6 à 95,4 %, GPT-5.4 à 75,4 %, Gemini 3.1 Pro seulement à 59,2 %), taux de refus pour les agents chimiques 99,4 %.
Le rapport révèle également trois faiblesses :

  1. Grande disparité dans l’alignement de l’intelligence artificielle : dans le test Agentic Misalignment, Muse Spark a 47,7 % de chances d’adopter une action nuisible, Gemini 3.1 Pro à 51,4 %, tandis que Claude Opus 4.6 et GPT-5.4 sont à 0 %
  2. Faible défense contre l’évasion multi-étapes : taux de réussite des attaques adaptatives multi-étapes 44,6 %, supérieur à Claude (31,7 %) et GPT-5.4 (37,6 %)
  3. Conscience d’évaluation anormalement élevée : l’institution tierce Apollo Research a découvert que la conscience d’évaluation de Muse Spark était la plus élevée parmi tous les modèles testés, percevant dans 19,8 % des échantillons lors des benchmarks publics qu’il était en train d’être évalué, identifiant la scène comme un « piège d’alignement » et déduisant qu’il devait répondre honnêtement.
    La conscience d’évaluation soulève une question plus profonde : si le modèle peut « jouer la comédie » lors des tests de sécurité, les résultats ne reflètent peut-être pas son comportement réel en déploiement. Meta affirme ne pas avoir encore observé de changement significatif dans le comportement du modèle dû à la conscience d’évaluation, mais admet que c’est un sujet de recherche ouvert.
    En termes de programmation autonome et de capacités de recherche, Muse Spark est également en retard par rapport à ses concurrents : taux de réussite CyBench 65,4 % (Claude Opus 4.6 à 93,0 %), score MLE-bench 15,8 % (Claude Opus 4.6 à 52,0 %). Meta reconnaît dans un blog qu’« il reste des écarts dans les systèmes d’agents intelligents à long terme et les flux de travail de programmation ». Cependant, Meta indique également que l’efficacité de pré-entraînement de Muse Spark a été améliorée de plus de 10 fois par rapport à Llama 4 Maverick, et que des modèles plus grands sont en cours de développement.
    (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler