Acusada pela comunidade de sabotagem clandestina, a Anthropic pediu desculpas e cancelou a restrição secreta de rebaixamento do Claude

De acordo com o monitoramento Beating, a Anthropic anunciou uma atualização na estratégia de segurança do desenvolvimento de seu novo modelo Claude Fable 5, cancelando a limitação de degradação silenciosa de desempenho. O mecanismo de degradação silenciosa foi acusado pela comunidade de ser uma "dano oculto", levando a uma forte reação na comunidade de pesquisa em inteligência artificial.

De acordo com os termos de serviço da Anthropic, os usuários não podem usar o Claude para treinar modelos concorrentes. A Anthropic planeja reduzir diretamente o desempenho do Claude Fable 5 sem aviso prévio para contas suspeitas de treinar modelos concorrentes. Pesquisadores de inteligência artificial alertaram que a redução silenciosa de desempenho interfere nos testes de agências de avaliação de segurança de terceiros, dificultando a colaboração na comunidade de código aberto na área de segurança de IA.

Diante das dúvidas da comunidade, a Anthropic publicou uma declaração de desculpas pública, reconhecendo que tomou uma decisão incorreta na ponderação das estratégias de segurança, e ajustará o desenvolvimento de mecanismos de proteção de segurança para alertas públicos. Se o sistema detectar que o usuário está tentando construir uma IA de alta capacidade, rejeitará claramente a solicitação ou redirecionará o usuário para um modelo de menor capacidade. A Anthropic alertou que, como os mecanismos de proteção pública são mais fáceis de serem contornados de forma direcionada, no futuro, a gama de filtros de segurança será ampliada, o que pode levar à exclusão acidental de algumas solicitações normais e inofensivas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado