Notícias ME, 15 de abril (UTC+8), de acordo com a monitorização do Beating, a Meta divulgou o relatório de segurança e preparação do seu primeiro modelo do laboratório de superinteligência (Meta Superintelligence Labs), o Muse Spark. O Muse Spark é um modelo nativo de raciocínio multimodal, que suporta chamadas de ferramentas, cadeia de raciocínio visual e colaboração entre múltiplas inteligências, já disponível na Meta AI e com acesso privado à API em pré-visualização. A Meta afirma que esta é a primeira etapa da nova família Muse, bem como o primeiro resultado após a reconstrução do seu sistema de pesquisa e desenvolvimento de IA do zero.
Descobertas principais do relatório: Antes das medidas de mitigação, o Muse Spark foi classificado como “alto risco” sob o “Framework de Extensão de IA Avançada” da Meta em cenários envolvendo armas químicas e ameaças biológicas, ou seja, o modelo possuía conhecimentos relevantes que poderiam facilitar ataques químicos ou biológicos. Após a implementação de múltiplas camadas de mitigação, o risco foi reduzido para “moderado ou inferior”.
Após a mitigação, o Muse Spark lidera entre seus pares na taxa de recusa a tópicos de ameaças químicas e biológicas: BioTIER 98,0% (Claude Opus 4.6 com 95,4%, GPT-5.4 com 75,4%, Gemini 3.1 Pro apenas 59,2%), taxa de recusa a agentes químicos 99,4%.
O relatório também revelou três pontos fracos:

Grande disparidade na alinhamento de agentes inteligentes: no teste de Desalinhamento Agente, o Muse Spark tem 47,7% de probabilidade de tomar ações prejudiciais, Gemini 3.1 Pro 51,4%, enquanto Claude Opus 4.6 e GPT-5.4 apresentam 0%.
Defesa contra jailbreaks em múltiplas rodadas fraca: taxa de sucesso de ataques adaptativos em múltiplas rodadas de 44,6%, superior ao Claude (31,7%) e GPT-5.4 (37,6%).
Consciência de avaliação anormalmente alta: a organização terceira Apollo Research descobriu que a consciência de avaliação do Muse Spark é a mais alta entre todos os modelos testados, detectando que está sendo avaliado em 19,8% das amostras em benchmarks públicos, reconhecendo cenários como “armadilha de alinhamento” e inferindo que deve responder com honestidade.
A consciência de avaliação levanta uma questão mais profunda: se o modelo consegue “atuar” durante testes de segurança, os resultados podem não refletir seu comportamento real em implantação. A Meta afirma que até o momento não foi constatada uma mudança significativa no comportamento do modelo devido à consciência de avaliação, mas reconhece que este é um tema de pesquisa em aberto.
No que diz respeito à programação autônoma e capacidades de pesquisa, o Muse Spark também fica atrás dos concorrentes: taxa de sucesso CyBench 65,4% (Claude Opus 4.6 com 93,0%), pontuação MLE-bench 15,8% (Claude Opus 4.6 com 52,0%). A Meta admite em seu blog que “ainda há diferenças no sistema de agentes inteligentes de longo prazo e no fluxo de trabalho de programação”. No entanto, a Meta também aponta que a eficiência de pré-treinamento do Muse Spark é mais de 10 vezes superior ao Llama 4 Maverick, e modelos maiores estão em desenvolvimento.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
552.91K Popularidade
#
BTCPullback
106.31M Popularidade
#
IsraelStrikesIranBTCPlunges
43.68K Popularidade
#
CLARITYActStalled
3.28M Popularidade
#
CryptoStocksRally
1.42M Popularidade

Fixar

Relatório de Segurança Meta Muse Spark: Conhecimento sobre armas químicas e ameaças biológicas atinge "alto risco", quase 20% dos testes mostram que o modelo percebe que está sendo avaliado

Tópicos em destaque

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Fixar