Accusé par la communauté de sabotage en secret, Anthropic s'excuse et annule la restriction secrète de dégradation de Claude

robot
Création du résumé en cours
ME AI Message, selon le monitoring de Beating, Anthropic a annoncé qu'il ajustait la stratégie de sécurité pour le développement de son nouveau modèle Claude Fable 5, en supprimant la limitation de dégradation silencieuse des performances. Le mécanisme de dégradation silencieuse a été accusé par la communauté comme étant une « destruction clandestine », provoquant une forte réaction dans la communauté de la recherche en intelligence artificielle. Selon les termes de service d'Anthropic, les utilisateurs ne peuvent pas utiliser Claude pour entraîner des modèles concurrents. Anthropic prévoit que pour les comptes soupçonnés d'entraîner des modèles concurrents, la performance de Claude Fable 5 sera directement réduite sans notification préalable aux utilisateurs. Les chercheurs en intelligence artificielle avertissent que la réduction silencieuse des performances perturbe le travail des organismes d’évaluation de sécurité tiers, et entrave la collaboration dans la communauté open source dans le domaine de la sécurité de l’IA. Face aux doutes de la communauté, Anthropic a publié une déclaration présentant ses excuses publiques, reconnaissant avoir pris une mauvaise décision dans l’équilibre des stratégies de sécurité, et a ajusté le développement de mécanismes de protection pour qu’ils soient désormais affichés publiquement. Si le système détecte que l’utilisateur tente de construire une IA à haute capacité, il rejettera explicitement la demande ou redirigera l’utilisateur vers un modèle à capacité réduite. Anthropic avertit que, puisque les mécanismes de protection publics sont plus facilement contournés de manière ciblée, à l’avenir, la portée de la filtration de sécurité sera élargie, ce qui pourrait entraîner la suppression accidentelle de certaines requêtes inoffensives. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé