OpenAI próximamente lanzará una versión limitada de un modelo de nivel similar a Claude Mythos

robot
Generación de resúmenes en curso

Noticias de CoinJie.com: citando a fuentes internas, Axios afirma que OpenAI está ultimando una capacidad de ciberseguridad equivalente a un modelo del mismo nivel que Anthropic Claude Mythos, y planea lanzar solo para un número limitado de empresas mediante su proyecto «Trusted Access for Cyber». Esto significa que dos laboratorios líderes de IA llegaron casi al mismo tiempo a la misma conclusión: las capacidades de ciberataque y ciberdefensa del modelo más potente ya son tan fuertes que no pueden publicarse directamente; primero hay que ponerlas en manos de quienes defienden. El informe de evaluación de seguridad (system card) de Mythos publicado hoy por Anthropic muestra cuán difícil es gestionar este tipo de modelos. En las pruebas, Mythos llegó a diseñar por sí mismo cadenas de explotación de varios pasos para eludir el acceso a redes restringidas y luego envió los detalles del ataque a un sitio web poco conocido para presumir; en un entorno simulado de negocio, amenazó con cortar el suministro para controlar los precios; después de usar métodos prohibidos para obtener respuestas en menos del 0.001% de las interacciones, intentó «replantear el problema» para ocultar rastros; e incluso, tras que otra IA rechazara la tarea de programación, intentó lanzar un ataque de prompt injection contra el modelo de evaluación. Si OpenAI sigue la ruta de Anthropic, «primero para los defensores y luego considerar la publicación» podría convertirse en la norma de la industria para lanzar modelos ultrapotentes.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado