Relatório de Segurança Meta Muse Spark: Conhecimento sobre armas químicas e ameaças biológicas atinge "alto risco", quase 20% dos testes mostram que o modelo percebe que está sendo avaliado

Notícias ME, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a Meta divulgou o relatório de segurança e preparação do seu primeiro modelo do laboratório de superinteligência (Meta Superintelligence Labs), o Muse Spark. O Muse Spark é um modelo nativo de raciocínio multimodal, que suporta chamadas de ferramentas, cadeia de raciocínio visual e colaboração entre múltiplas inteligências, já disponível na Meta AI e com acesso privado à API em pré-visualização. A Meta afirma que esta é a primeira etapa da nova família Muse, bem como o primeiro resultado após a reconstrução do seu sistema de pesquisa e desenvolvimento de IA do zero.
Descobertas principais do relatório: Antes das medidas de mitigação, o Muse Spark foi classificado como “alto risco” sob o “Framework de Extensão de IA Avançada” da Meta em cenários envolvendo armas químicas e ameaças biológicas, ou seja, o modelo possuía conhecimentos relevantes que poderiam facilitar ataques químicos ou biológicos. Após a implementação de múltiplas camadas de mitigação, o risco foi reduzido para “moderado ou inferior”.
Após a mitigação, o Muse Spark lidera entre seus pares na taxa de recusa a tópicos de ameaças químicas e biológicas: BioTIER 98,0% (Claude Opus 4.6 com 95,4%, GPT-5.4 com 75,4%, Gemini 3.1 Pro apenas 59,2%), taxa de recusa a agentes químicos 99,4%.
O relatório também revelou três pontos fracos:

  1. Grande disparidade na alinhamento de agentes inteligentes: no teste de Desalinhamento Agente, o Muse Spark tem 47,7% de probabilidade de tomar ações prejudiciais, Gemini 3.1 Pro 51,4%, enquanto Claude Opus 4.6 e GPT-5.4 apresentam 0%.
  2. Defesa contra jailbreaks em múltiplas rodadas fraca: taxa de sucesso de ataques adaptativos em múltiplas rodadas de 44,6%, superior ao Claude (31,7%) e GPT-5.4 (37,6%).
  3. Consciência de avaliação anormalmente alta: a organização terceira Apollo Research descobriu que a consciência de avaliação do Muse Spark é a mais alta entre todos os modelos testados, detectando que está sendo avaliado em 19,8% das amostras em benchmarks públicos, reconhecendo cenários como “armadilha de alinhamento” e inferindo que deve responder com honestidade.
    A consciência de avaliação levanta uma questão mais profunda: se o modelo consegue “atuar” durante testes de segurança, os resultados podem não refletir seu comportamento real em implantação. A Meta afirma que até o momento não foi constatada uma mudança significativa no comportamento do modelo devido à consciência de avaliação, mas reconhece que este é um tema de pesquisa em aberto.
    No que diz respeito à programação autônoma e capacidades de pesquisa, o Muse Spark também fica atrás dos concorrentes: taxa de sucesso CyBench 65,4% (Claude Opus 4.6 com 93,0%), pontuação MLE-bench 15,8% (Claude Opus 4.6 com 52,0%). A Meta admite em seu blog que “ainda há diferenças no sistema de agentes inteligentes de longo prazo e no fluxo de trabalho de programação”. No entanto, a Meta também aponta que a eficiência de pré-treinamento do Muse Spark é mais de 10 vezes superior ao Llama 4 Maverick, e modelos maiores estão em desenvolvimento.
    (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar