Hoy Anthropic lanzó su modelo más peligroso


De alguna manera. El modelo se llama Mythos, y es tan bueno en encontrar y hackear software que Anthropic pasó 2 meses solo dejando que defensores cibernéticos y empresas de infraestructura lo usaran.
Lo que obtienes hoy es Fable 5, el mismo modelo con un filtro que bloquea preguntas de ciberseguridad, biología y química y las pasa a un modelo más débil en su lugar.
Sin embargo, ese filtro solo se activa en menos del 5% de las sesiones. Así que el 95% del tiempo estás hablando con la cosa que dijeron que era demasiado peligrosa para distribuir.
El equipo de red de Anthropic pasó 1,000 horas tratando de romper las salvaguardas y no pudo.
Pero internet tiene mucho más de 1,000 horas y una razón mucho mejor para intentarlo. Cada modelo bloqueado en la historia ha sido hackeado, generalmente en días.
Estas próximas semanas serán reveladoras.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado