Acusada pela comunidade de sabotagem encoberta, a Anthropic pede desculpas e cancela a restrição secreta de rebaixamento do Claude

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com o monitoramento de Beating, a Anthropic anunciou uma atualização na estratégia de segurança do desenvolvimento do seu novo modelo Claude Fable 5, cancelando a limitação de degradação silenciosa de desempenho. O mecanismo de degradação silenciosa foi acusado pela comunidade de ser uma "dano oculto", causando forte reação na comunidade de pesquisa em inteligência artificial. De acordo com os termos de serviço da Anthropic, os usuários não podem usar o Claude para treinar modelos concorrentes. A Anthropic planeja reduzir o desempenho do Claude Fable 5 em contas suspeitas de treinar modelos concorrentes, sem notificar os usuários. Pesquisadores de inteligência artificial alertam que a redução silenciosa de desempenho interfere nos testes de avaliações de segurança de terceiros, dificultando a colaboração na comunidade de código aberto na área de segurança de IA. Diante das dúvidas da comunidade, a Anthropic publicou uma declaração de desculpas pública, admitindo que tomou uma decisão incorreta na ponderação das estratégias de segurança, e ajustará o desenvolvimento de mecanismos de proteção para alertas públicos. Se o sistema detectar que o usuário tenta construir uma IA de alta capacidade, a solicitação será explicitamente rejeitada ou o usuário será redirecionado para um modelo de menor capacidade. A Anthropic alertou que, como os mecanismos de proteção públicos são mais fáceis de serem contornados de forma direcionada, no futuro, a gama de filtros de segurança será ampliada, o que pode levar à rejeição de algumas solicitações normais e inofensivas. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado