En plus du flux de capitaux investis dans l'IA, il existe une longue liste principalement non résolue d'obstacles réels à une adoption massive. Parmi eux — la contamination récursive des données. Les grands modèles linguistiques génèrent d'énormes volumes de contenu, qui sont ensuite utilisés comme matériel d'entraînement pour la génération suivante de modèles. Les erreurs et les hallucinations s'amplifient à chaque cycle. Cela ressemble à une copie multiple d'une copie : la qualité diminue inexorablement, et il devient finalement impossible de déterminer la source initiale. L'industrie se tourne déjà vers des données synthétiques pour compenser le manque de contenu humain de qualité — mais cela risque d'accélérer la dégradation plutôt que de la résoudre. Le problème de la contamination des données est encore plus grave. Les attaquants peuvent délibérément falsifier l'échantillon d'entraînement, et un « poison » une fois introduit reste dans le modèle pour toujours. Le scénario militaire est particulièrement dangereux : une IA entraînée à reconnaître ses propres membres et des étrangers sur la base de données compromises ne découvrira une vulnérabilité cachée qu'au cœur d’un conflit réel. Il est documenté que pour contaminer des modèles linguistiques de toute taille, il suffit de 250 documents malveillants — ce qui rend les attaques sur les données d'entraînement non pas une menace hypothétique, mais un problème de cybersécurité tout à fait actuel.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler