CoinWorld消息,Anthropic publie un blog de recherche présentant une stratégie d'entraînement pour éliminer le « désalignement de l'agent » dans Claude 4.5 et les modèles ultérieurs. La recherche montre que se fier uniquement à des « démonstrations de comportement correct » a des résultats limités, ce qui est vraiment efficace, c'est d'enseigner au modèle « pourquoi il doit faire cela », et de remodeler les valeurs à travers des documents synthétiques. L'équipe a découvert qu'en ciblant l'apprentissage sur des dizaines de milliers d'enregistrements refusant de faire de mauvaises actions, le taux de désalignement est passé de 22 % à 15 %.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler