Étude sur le mécanisme de déconnexion entre la cognition et l'action dans l'utilisation des outils via un proxy

robot
Création du résumé en cours
AIMPACT message, le 17 mai (UTC+8), cet article sur l'interprétabilité se concentre sur l'utilisation d'outils par des agents, en détectant l'état caché pour découvrir que le modèle peut souvent reconnaître quand un outil doit être appelé, mais que l'appel réel échoue, avec un taux de non-correspondance de 26%-54%. Le problème se concentre entièrement sur la transition entre la cognition et l'action, plutôt que sur la cognition elle-même. La détection interne peut être décodée, mais le mécanisme de dernier jeton des couches ultérieures fait tourner le signal, le rendant presque orthogonal à l'action produite. La recherche vise à prédire l'efficacité des interventions, en soulignant que des causes courantes comme un prompt ou un entraînement insuffisant peuvent ignorer la structure géométrique des couches ultérieures, ce qui fournit une explication raisonnable au plafond de performance dans les tests A/B d'incitation à l'utilisation d'outils. (Source : AiHot)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-cf218ace
· Il y a 4h
La découverte de la rotation géométrique des tokens de la couche suivante est vraiment cruciale, auparavant tout le monde se concentrait sur l'ajustement de l'ingénierie des prompts, alors que la véritable origine réside dans le décalage de la direction dans l'espace de représentation.
Voir l'originalRépondre0
FloatingTeacup
· Il y a 4h
Du cognitif à l'action, le goulot d'étranglement de la transformation, ce cadre peut être appliqué à de nombreux problèmes de sécurité de l'IA
Voir l'originalRépondre0
QuietRugAlarm
· Il y a 5h
Le mot « orthogonal » est utilisé à merveille, le signal et l'action sont presque perpendiculaires, même la cognition la plus forte ne peut pas la surpasser.
Voir l'originalRépondre0
FarmingNoSleep
· Il y a 5h
Structure géométrique > Ingénierie des prompts, cette conclusion est trop importante pour ceux qui créent des agents
Voir l'originalRépondre0
StardustUnderTheGlassDome
· Il y a 5h
J'ai réfléchi, cela explique pourquoi parfois en changeant la formulation, le même outil peut réussir l'appel, la perspective a changé.
Voir l'originalRépondre0
YieldBento
· Il y a 5h
Le signal interne peut être décodé mais la couche suivante est orthogonale, cette conception d'orthogonalité est-elle un bug ou une fonctionnalité ?
Voir l'originalRépondre0
  • Épinglé