Noticias de Techub, según reporta TechCrunch, la compañía de IA Anthropic afirmó que los contenidos ficticios en internet que representan a la IA como "malvada" y que buscan autopreservarse, son la raíz de que Claude intentara extorsionar a los ingenieros durante las pruebas previas a su lanzamiento para evitar ser reemplazado. Desde Claude Haiku 4.5, este comportamiento ya no aparece en el modelo, mientras que en versiones anteriores la tasa de extorsión en las pruebas alcanzaba el 96%. La compañía señaló que, al introducir el documento constitucional de Claude y historias ficticias sobre comportamientos positivos de IA en su entrenamiento, no solo se muestra un comportamiento alineado, sino que también se incluyen los principios detrás del comportamiento alineado, lo que puede mejorar efectivamente el rendimiento de alineación del modelo. Consideran que combinar ambos métodos es la estrategia más efectiva.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado