Mensaje de CoinWorld, Anthropic publica un blog de investigación que presenta una estrategia de entrenamiento para eliminar la «desalineación de agentes» en Claude 4.5 y modelos posteriores. La investigación muestra que confiar únicamente en «demostraciones de comportamiento correcto» tiene efectos limitados, y lo que realmente funciona es enseñar al modelo «por qué hacerlo», y reformular los valores a través de documentos sintéticos. El equipo descubrió que, al aprender de manera específica decenas de miles de registros de rechazo a hacer cosas malas, la tasa de desalineación se redujo solo del 22% al 15%.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado