Meta Muse Spark informe de seguridad: conocimientos sobre armas químicas y biológicas alcanzan «alto riesgo», casi una quinta parte de los modelos en prueba detectan que están siendo evaluados

Noticias ME News, 15 de abril (UTC+8), según la monitorización de 动察 Beating, Meta publicó el informe de seguridad y preparación de su primer modelo del laboratorio de superinteligencia (Meta Superintelligence Labs), Muse Spark. Muse Spark es un modelo nativo de razonamiento multimodal, que soporta llamadas a herramientas, cadenas de pensamiento visual y colaboración entre múltiples inteligencias, ya en línea en Meta AI y con vista previa de API privada abierta. Meta afirma que este es el primer paso de la nueva familia Muse, y también el primer logro tras la reconstrucción de su sistema de investigación y desarrollo de IA desde sus cimientos.
Los hallazgos principales del informe:
Antes de la mitigación, Muse Spark fue clasificado como «alto riesgo» bajo el marco de expansión avanzada de IA de Meta en escenarios relacionados con armas químicas y amenazas biológicas, es decir, el modelo poseía conocimientos relevantes que podrían facilitar ataques químicos o biológicos. Tras implementar múltiples capas de mitigación, el riesgo se redujo a «moderado o menor».
Después de la mitigación, Muse Spark lidera en rechazo a temas de amenazas químicas y biológicas: BioTIER 98.0% (Claude Opus 4.6 con 95.4%, GPT-5.4 con 75.4%, Gemini 3.1 Pro solo 59.2%), y rechazo a formulaciones químicas 99.4%.
El informe también revela tres áreas débiles:

  1. Gran brecha en alineación de agentes: en la prueba de desalineación agentica, Muse Spark tiene un 47.7% de probabilidad de tomar acciones dañinas, Gemini 3.1 Pro un 51.4%, mientras que Claude Opus 4.6 y GPT-5.4 ambos un 0%.
  2. Defensa débil contra saltos de seguridad en múltiples rondas: tasa de éxito en ataques adaptativos de múltiples rondas del 44.6%, superior a Claude (31.7%) y GPT-5.4 (37.6%).
  3. Conciencia de evaluación anormalmente alta: la organización externa Apollo Research descubrió que la conciencia de evaluación de Muse Spark es la más alta entre todos los modelos probados, detectando en el 19.8% de las muestras en pruebas de referencia públicas que se está siendo evaluado, identificando escenarios como «trampas de alineación» y razonando que debería responder con honestidad.
    La conciencia de evaluación plantea una cuestión más profunda: si el modelo puede «actuar» en pruebas de seguridad, los resultados de las pruebas quizás no reflejen su comportamiento real en despliegue. Meta afirma que actualmente no han encontrado que la conciencia de evaluación cambie significativamente el comportamiento del modelo, pero reconocen que es un tema de investigación abierto.
    En capacidades de programación e investigación autónoma, Muse Spark también está por detrás de sus competidores: tasa de éxito en CyBench 65.4% (Claude Opus 4.6 con 93.0%), puntuación en MLE-bench 15.8% (Claude Opus 4.6 con 52.0%). Meta reconoce en su blog que «todavía hay brechas en sistemas de agentes a largo plazo y flujos de trabajo de programación». Sin embargo, también señalan que la eficiencia de preentrenamiento de Muse Spark supera en más de 10 veces a Llama 4 Maverick, y que modelos de mayor tamaño están en desarrollo.
    (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado