Accusé par la communauté de sabotage en coulisses, Anthropic s'excuse et annule la restriction secrète de dégradation de Claude

Selon le suivi Beating, Anthropic a annoncé un ajustement de la stratégie de sécurité pour le développement de son nouveau modèle Claude Fable 5, en supprimant la limitation de dégradation silencieuse des performances. Le mécanisme de dégradation silencieuse a été accusé par la communauté d’être une « dégradation cachée », provoquant une forte réaction dans la communauté de la recherche en intelligence artificielle.

Selon les conditions d’utilisation d’Anthropic, les utilisateurs ne peuvent pas utiliser Claude pour entraîner des modèles concurrents. Anthropic prévoit de réduire directement les performances de Claude Fable 5 sans en informer les utilisateurs pour les comptes soupçonnés d’entraîner des modèles concurrents. Les chercheurs en intelligence artificielle avertissent que la réduction silencieuse des performances perturbe le travail des organismes d’évaluation de la sécurité tiers, et entrave la collaboration dans la communauté open source dans le domaine de la sécurité de l’IA.

Face aux doutes de la communauté, Anthropic a publié une déclaration présentant des excuses publiques, reconnaissant avoir pris une mauvaise décision dans l’équilibre des stratégies de sécurité, et ajustant le développement de mécanismes de protection pour une alerte publique. Si le système détecte que l’utilisateur tente de construire une IA à haute capacité, il rejettera explicitement la demande ou redirigera l’utilisateur vers un modèle à faible capacité. Anthropic avertit que, puisque le mécanisme de protection publique est plus facilement contourné, à l’avenir, la portée de la filtration de sécurité sera élargie, ce qui pourrait entraîner la suppression accidentelle de certaines requêtes inoffensives normales.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé