Acusada pela comunidade de sabotagem clandestina, a Anthropic pediu desculpas e cancelou a restrição secreta de rebaixamento do Claude

robot
Geração do resumo em andamento
ME AI Mensagem, de acordo com o monitoramento de Detecção Beating, a Anthropic anunciou uma atualização na estratégia de segurança do desenvolvimento de seu novo modelo Claude Fable 5, cancelando a limitação de degradação silenciosa de desempenho. O mecanismo de degradação silenciosa foi acusado pela comunidade de ser uma "dano oculto", causando forte reação na comunidade de pesquisa em inteligência artificial.
De acordo com os termos de serviço da Anthropic, os usuários não podem usar Claude para treinar modelos concorrentes. A Anthropic planeja reduzir o desempenho do Claude Fable 5 diretamente, sem aviso prévio, para contas suspeitas de treinar modelos concorrentes.
Pesquisadores de inteligência artificial alertam que a redução silenciosa de desempenho interfere nos testes de agências de avaliação de segurança de terceiros, dificultando a colaboração na comunidade de código aberto na área de segurança de IA.
Diante das dúvidas da comunidade, a Anthropic publicou uma declaração de desculpas pública, admitindo que tomou uma decisão incorreta na ponderação das estratégias de segurança, e ajustará o desenvolvimento de mecanismos de proteção para alertas públicos.
Se o sistema detectar que o usuário tenta construir uma IA de alta capacidade, a solicitação será explicitamente rejeitada ou o usuário será redirecionado para um modelo de menor capacidade.
A Anthropic alerta que, como mecanismos de proteção públicos são mais fáceis de serem contornados de forma direcionada, no futuro, a gama de filtros de segurança será ampliada, o que pode levar à rejeição de algumas solicitações inofensivas normais.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado