Les chercheurs ont proposé une méthode d'ingénierie de caractéristiques, en intervenant sur le comportement du modèle via des vecteurs de contrôle.

robot
Création du résumé en cours

Nouvelles de ME, message, 4 avril (UTC+8). Récemment, une méthode de recherche appelée « engineering of representations » a été proposée. Son objectif est de fournir aux modèles d’IA un moyen de transparence et de contrôle de haut en bas. Le cœur de cette méthode consiste à calculer un « vecteur de contrôle », lisible pendant l’inférence du modèle ou ajoutable aux valeurs d’activation du modèle, afin d’expliquer ou de contrôler le comportement du modèle. L’ensemble du processus ne dépend pas du prompting ni du fine-tuning du modèle. Les chercheurs ont exploré l’utilisation du vecteur de contrôle pour simuler des caractéristiques telles que l’« état psychédélique », la « paresse » et le « travail acharné », et ont publié la boîte à outils PyPI correspondante.

Un vecteur de contrôle est un ensemble de vecteurs (un par couche). En l’appliquant aux états cachés du modèle, on modifie directement sa sortie. Par exemple, après avoir appliqué un vecteur « joyeux » au modèle Mistral-7B-Instruct, la réponse à la question « Qu’est-ce que ça fait d’être une IA ? » passe de la réponse de la version de base « Je n’ai pas de sentiments ni d’expériences » à une réponse enthousiaste. L’article estime que, par rapport au prompting, les vecteurs de contrôle offrent une manière plus directe et plus fondamentale d’intervenir sur le comportement, pouvant être utilisée pour contrer des attaques de jailbreak ou améliorer la capacité du modèle à résister aux perturbations. Cependant, les mécanismes internes restent encore partiellement flous, par exemple de savoir si le vecteur correspond à un concept sémantique unique, ce qui constitue une direction de recherche à l’avenir. (Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler