Estudio del mecanismo de desconexión entre el reconocimiento y la acción en el uso de herramientas y proxies

robot
Generación de resúmenes en curso
AIMPACT mensaje, 17 de mayo (UTC+8), esta publicación sobre interpretabilidad se centra en herramientas que utilizan agentes, mediante la detección de estados ocultos, descubren que los modelos a menudo reconocen cuándo deben llamar a una herramienta, pero la llamada real falla, con una tasa de no coincidencia del 26%-54%. El problema se centra completamente en la transición del reconocimiento a la acción, y no en el reconocimiento en sí. La detección interna puede decodificarse, pero el mecanismo de los últimos tokens en las capas posteriores hace que la señal gire, siendo casi ortogonal a la acción generada. La investigación busca predecir la efectividad de las intervenciones, señalando que las atribuciones comunes como indicaciones o entrenamiento insuficiente pueden pasar por alto la estructura geométrica de las capas posteriores, lo que proporciona una explicación razonable para el límite de rendimiento en pruebas A/B de indicaciones para el uso de herramientas. (Fuente: AiHot)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado