Los grandes modelos de lenguaje pueden "incluir" sus propias preferencias durante la destilación.

Mars Finance Noticias 16 de abril: Un estudio publicado el día 15 en la revista “Nature” muestra que los modelos de lenguaje grande (LLM) podrían transmitir sus propias preferencias “ocultas” a otros algoritmos, incluso después de eliminar las características originales en los datos de entrenamiento, esas características no deseadas aún podrían persistir. En un caso, un modelo parecía transmitir su preferencia por los búhos a otros modelos a través de señales implícitas en los datos. Los resultados del estudio indican que, al desarrollar LLM, es necesario realizar inspecciones de seguridad más exhaustivas. (Diario de Tecnología)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado