Hoje a Anthropic lançou o seu modelo mais perigoso


Mais ou menos. O modelo chama-se Mythos, e é tão bom a encontrar e invadir softwares que a Anthropic passou 2 meses apenas a deixar defensores cibernéticos e empresas de infraestrutura perto dele.
O que hoje recebem é o Fable 5, o mesmo modelo com um filtro que bloqueia perguntas de cibersegurança, biologia e química e as encaminha para o modelo mais fraco.
No entanto, esse filtro só entra em ação em menos de 5% das sessões. Portanto, 95% das vezes está a falar com a coisa que disseram ser demasiado perigosa para distribuir.
A equipa de resposta rápida da Anthropic passou 1.000 horas a tentar quebrar as salvaguardas e não conseguiu.
Mas a internet tem muito mais do que 1.000 horas e uma razão muito melhor para tentar. Todos os modelos bloqueados na história foram desbloqueados, geralmente em poucos dias.
Estas próximas semanas serão reveladoras.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado