AIMPACT mensaje, 17 de mayo (UTC+8), esta publicación sobre interpretabilidad se centra en herramientas que utilizan agentes, mediante la detección de estados ocultos, descubren que los modelos a menudo reconocen cuándo deben llamar a una herramienta, pero la llamada real falla, con una tasa de no coincidencia del 26%-54%. El problema se centra completamente en la transición del reconocimiento a la acción, y no en el reconocimiento en sí. La detección interna puede decodificarse, pero el mecanismo de los últimos tokens en las capas posteriores hace que la señal gire, siendo casi ortogonal a la acción generada. La investigación busca predecir la efectividad de las intervenciones, señalando que las atribuciones comunes, como la falta de indicaciones o entrenamiento, pueden pasar por alto la estructura geométrica de las capas posteriores, lo que proporciona una explicación razonable para el límite de rendimiento en pruebas A/B de indicaciones para el uso de herramientas. (Fuente: AiHot)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
6
Republicar
Compartir

Comentar

Añadir un comentario

GateUser-cf218ace

· hace3h

El descubrimiento de la rotación geométrica de los tokens en las capas posteriores es muy crucial, antes todos estaban enfocados en ajustar la ingeniería de prompts, pero en realidad la raíz está en el desplazamiento de la dirección en el espacio de representación.

Ver originalResponder0

FloatingTeacup

· hace3h

Desde el cuello de botella en la conversión de conocimiento a acción, este marco puede aplicarse a muchos problemas de seguridad de IA

Ver originalResponder0

QuietRugAlarm

· hace4h

El uso de la palabra "ortogonal" es ingenioso, la señal y la acción son casi perpendiculares, ni la cognición más fuerte puede atravesarlas.

Ver originalResponder0

FarmingNoSleep

· hace4h

Estructura geométrica > Ingeniería de indicaciones, esta conclusión es demasiado importante para quienes trabajan con agentes.

Ver originalResponder0

StardustUnderTheGlassDome

· hace4h

Pensé en ello, esto explica por qué a veces con una forma diferente de decir lo mismo, la herramienta puede llamar con éxito, y el ángulo de rotación ha cambiado.

Ver originalResponder0

YieldBento

· hace4h

¿El señalamiento interno es decodificable pero la capa posterior es ortogonal? ¿Este diseño de ortogonalidad es un error o una característica?

Ver originalResponder0

Temas de actualidad
Ver más
#
ShareYourUSStocksWinNvidia
23.97M Popularidad
#
WinGoldBarsWithGrowthPoints
1.28M Popularidad
#
IsraelStrikesIranBTCPlunges
52.31K Popularidad
#
NvidiaSurges6PercentToRecordHigh
2.87M Popularidad
#
AnthropicFilesConfidentialIPO
484.59K Popularidad

Fijado

Estudio del mecanismo de desconexión entre el reconocimiento y la acción en el uso de herramientas proxy

Temas de actualidad

ShareYourUSStocksWinNvidia

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

NvidiaSurges6PercentToRecordHigh

AnthropicFilesConfidentialIPO

Fijado