Acusada por la comunidad de sabotear en secreto, Anthropic se disculpa y cancela la restricción secreta de degradación de Claude

Según la monitorización de Beating, Anthropic anunció que ajustará la estrategia de seguridad en el desarrollo de su nuevo modelo Claude Fable 5, eliminando la restricción de degradación silenciosa del rendimiento. El mecanismo de degradación silenciosa ha sido acusado por la comunidad de ser una "perturbación oculta", lo que ha provocado una fuerte reacción en la comunidad de investigación en inteligencia artificial.

De acuerdo con los términos de servicio de Anthropic, los usuarios no pueden usar Claude para entrenar modelos competitivos. Anthropic planea reducir directamente el rendimiento de Claude Fable 5 sin notificar a los usuarios en las cuentas sospechosas de entrenar modelos competitivos. Los investigadores en inteligencia artificial advierten que la reducción silenciosa del rendimiento interferirá con las pruebas de las agencias de evaluación de seguridad de terceros, obstaculizando la colaboración en la comunidad de código abierto en el campo de la seguridad de la inteligencia artificial.

Frente a las dudas de la comunidad, Anthropic emitió una declaración pública disculpándose, reconociendo que tomó una decisión equivocada en el equilibrio de las estrategias de seguridad, y ajustará el desarrollo de mecanismos de protección de seguridad para que sean alertas públicas. Si el sistema detecta que un usuario intenta construir una IA de alta capacidad, rechazará claramente la solicitud o redirigirá al usuario a un modelo de menor capacidad. Anthropic advierte que, dado que los mecanismos de protección públicos son más fáciles de eludir de manera específica, en el futuro ampliará el alcance de los filtros de seguridad, lo que podría causar que algunas solicitudes normales e inofensivas sean también bloqueadas por error.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado