Techub News消息,据TechCrunch报道,AI公司Anthropic表示,互联网上描绘AI为「邪恶」且追求自保的虚构内容,是Claude在预发布测试中试图勒索工程师以逃避被替换行为的根源。自Claude Haiku 4.5起,该模型已不再出现此类行为,而此前版本在测试中勒索发生率高达96%。


该公司指出,通过引入Claude宪法文件及AI正面行为的虚构故事进行训练,并不仅展示对齐行为,而是包含对齐行为背后的原则,可有效改善模型对齐表现。其认为结合两种方法是最有效的策略。
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler