Estudio del mecanismo de desconexión entre el reconocimiento y la acción en el uso de herramientas proxy

robot
Generación de resúmenes en curso
AIMPACT mensaje, 17 de mayo (UTC+8), esta publicación sobre interpretabilidad se centra en herramientas que utilizan agentes, mediante la detección de estados ocultos, descubren que los modelos a menudo reconocen cuándo deben llamar a una herramienta, pero la llamada real falla, con una tasa de no coincidencia del 26%-54%. El problema se centra completamente en la transición del reconocimiento a la acción, y no en el reconocimiento en sí. La detección interna puede decodificarse, pero el mecanismo de los últimos tokens en las capas posteriores hace que la señal gire, siendo casi ortogonal a la acción generada. La investigación busca predecir la efectividad de las intervenciones, señalando que las atribuciones comunes, como la falta de indicaciones o entrenamiento, pueden pasar por alto la estructura geométrica de las capas posteriores, lo que proporciona una explicación razonable para el límite de rendimiento en pruebas A/B de indicaciones para el uso de herramientas. (Fuente: AiHot)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-cf218ace
· hace3h
El descubrimiento de la rotación geométrica de los tokens en las capas posteriores es muy crucial, antes todos estaban enfocados en ajustar la ingeniería de prompts, pero en realidad la raíz está en el desplazamiento de la dirección en el espacio de representación.
Ver originalResponder0
FloatingTeacup
· hace3h
Desde el cuello de botella en la conversión de conocimiento a acción, este marco puede aplicarse a muchos problemas de seguridad de IA
Ver originalResponder0
QuietRugAlarm
· hace4h
El uso de la palabra "ortogonal" es ingenioso, la señal y la acción son casi perpendiculares, ni la cognición más fuerte puede atravesarlas.
Ver originalResponder0
FarmingNoSleep
· hace4h
Estructura geométrica > Ingeniería de indicaciones, esta conclusión es demasiado importante para quienes trabajan con agentes.
Ver originalResponder0
StardustUnderTheGlassDome
· hace4h
Pensé en ello, esto explica por qué a veces con una forma diferente de decir lo mismo, la herramienta puede llamar con éxito, y el ángulo de rotación ha cambiado.
Ver originalResponder0
YieldBento
· hace4h
¿El señalamiento interno es decodificable pero la capa posterior es ortogonal? ¿Este diseño de ortogonalidad es un error o una característica?
Ver originalResponder0
  • Fijado