Utilisation de l’homomorphie complète (FHE) pour résoudre les problèmes de confidentialité de la LLM

Source: Antalpha Labs

Guide

L’essor de l’intelligence artificielle est incroyable. Des algorithmes de base aux modèles d’apprentissage des langues (LLM) tels que ChatGPT et Copilot, l’IA est à la pointe de l’évolution technologique. Les préoccupations en matière de confidentialité des données deviennent particulièrement importantes lorsque ces modèles interagissent avec les utilisateurs et traitent de grandes quantités de données et d’invites. Parmi elles, de grandes entreprises telles qu’Amazon et Apple ont restreint l’accès des employés aux API publiques telles que ChatGPT pour empêcher les violations de données pouvant être causées par des interactions avec l’IA. De plus, il est raisonnable de s’attendre à ce que des règlements soient bientôt mis en place pour imposer un certain niveau de protection de la vie privée des utilisateurs.

Comment pouvons-nous nous assurer que les données avec lesquelles nous interagissons, posons des questions et partageons avec ces modèles restent privées ?

-Chiffrement homomorphe complet (FHE)

Brève introduction

Dans le domaine de la cryptographie, le chiffrement entièrement homomorphe est un concept fondateur. Son charme réside dans sa capacité unique : il permet le calcul de données chiffrées directement sans déchiffrer les données au préalable, permettant ainsi un raisonnement privé pour des informations sensibles.

Avec cette fonctionnalité, deux choses importantes sont assurées : la sécurité des données pendant le traitement et la protection complète de la propriété intellectuelle (PI) du modèle.

** Raisonnement de confidentialité et protection de la propriété intellectuelle **

De nos jours, la « vie privée » et « l’expérience utilisateur » semblent être la relation entre le poisson et la patte d’ours, et les deux ne peuvent pas être combinées. Les gens font souvent confiance à des tiers pour traiter leurs informations afin d’améliorer l’expérience utilisateur. Nous pensons que ces sociétés tierces peuvent trouver un équilibre entre la confidentialité des utilisateurs et la qualité du service aux utilisateurs sans avoir à choisir entre une solution sur site qui améliore la confidentialité et qui manque de fonctionnalités, ou un service qui sacrifie la confidentialité pour des fonctionnalités riches.

Le chiffrement entièrement homomorphe permet d’inférer la confidentialité avec une protection complète de la propriété intellectuelle du modèle. En effectuant des calculs sur des données chiffrées, il assure une confidentialité totale des invites tout en protégeant la propriété intellectuelle des grands modèles de langage.

Méthode de cryptage traditionnelle VS FHE

Dans les schémas de chiffrement traditionnels, si vous souhaitez effectuer des opérations significatives sur les données sous forme chiffrée, vous devez d’abord les déchiffrer. Mais le déchiffrement expose le texte en clair des données, ce qui signifie que les données deviennent vulnérables aux attaques, même pendant une fraction de seconde.

En revanche, le chiffrement entièrement homomorphe peut opérer directement sur le texte chiffré, garantissant que les informations sensibles sont « invisibles » tout au long de l’opération.

Pourquoi l’HE est-elle importante

L’importance d’un chiffrement entièrement homomorphe ne se limite pas à la théorie. Imaginez un service de cloud computing où le traitement des données peut être effectué sans déchiffrer les données, ou les bases de données médicales peuvent être analysées sans obtenir de détails sensibles sur les patients. Les applications potentielles du chiffrement entièrement homomorphe sont vastes et diverses, y compris les systèmes de vote sécurisés et les recherches privées dans les bases de données cryptées.

Fondements mathématiques de l’EFH

Le chiffrement entièrement homomorphe est basé sur le problème d’apprentissage tolérant aux pannes (LWE), une technique de cryptographie sur réseau résistante au quantique. Dans LWE, le bruit aléatoire est utilisé pour rendre les données illisibles à moins qu’une clé ne soit en possession. Des opérations arithmétiques sur des données chiffrées sont possibles, mais cela augmente généralement le niveau de bruit. Si trop d’opérations sont effectuées successivement, les données ne peuvent être lues par personne, y compris ceux qui détiennent les clés. C’est ce qu’on appelle le chiffrement homomorphe partiel (SHE).

La conversion d’un chiffrement homomorphe partiel en chiffrement entièrement homomorphe nécessite une opération qui réduit les niveaux de bruit. Cette opération est connue sous le nom d’amorçage et est utilisée par de nombreux schémas de chiffrement entièrement homomorphes. Dans cet article, nous nous concentrerons sur le schéma de chiffrement entièrement homomorphe sur tore (Torus FHE), qui utilise la structure algébrique des tores mathématiques pour obtenir un chiffrement entièrement homomorphe.

Avantages de TFHE

Bien que chaque schéma de chiffrement entièrement homomorphe ait ses propres avantages et inconvénients, TFHE a actuellement une mise en œuvre plus efficace dans des scénarios pratiques. Un autre avantage important de TFHE est son Programmable Bootstrapping (PBS), qui étend les opérations d’amorçage habituelles pour inclure le calcul de fonctions univariées, telles que les fonctions d’activation, qui sont critiques dans le domaine de l’apprentissage automatique.

L’un des inconvénients de TFHE est que chaque opération arithmétique dans le calcul nécessite une opération PBS, tandis que d’autres schémas permettent d’effectuer certaines opérations par lots entre les opérations d’amorçage.

Hypothèses et approximations****

Pour estimer le temps nécessaire à l’inférence d’un grand modèle de langage (LLM) à l’aide d’un chiffrement entièrement homomorphe, nous faisons quelques hypothèses pour évaluer :

  • Le nombre d’opérations arithmétiques requises par jeton est d’environ 1 à 2 fois le nombre de paramètres du modèle. Il s’agit d’une borne inférieure, puisque chaque jeton utilise l’ensemble du modèle, et nous supposerons que cette limite inférieure est suffisamment proche de la demande réelle.
  • Chaque opération arithmétique dans un grand modèle de langage peut être mappée à une opération arithmétique dans TFHE. Il s’agit essentiellement d’une indication de la taille du type de variable dans les deux scénarios. Nous supposons que les variables INT4 sont suffisantes pour les grands modèles de langage et réalisables pour TFHE.
  • Chaque opération arithmétique dans un grand modèle de langage doit être mappée à une opération arithmétique dans un chiffrement entièrement homomorphe. Cela signifie que nous ne pouvons pas exécuter une partie du modèle sans chiffrement. Un récent billet de blog de Zama considère l’inférence FHE qui n’utilise pas cette hypothèse, où la majeure partie du modèle est exécutée localement par l’utilisateur sans aucun chiffrement, et seule une petite partie (telle qu’une seule tête d’attention) s’exécute avec un chiffrement entièrement homomorphe sur le serveur d’entreprise du modèle. À notre avis, cette approche ne protège pas réellement la propriété intellectuelle du modèle, car dans ce cas, l’utilisateur peut exécuter uniquement la tête manquante avec seulement une légère perte de précision, comme illustré ici, ou entraîner la pièce manquante à un coût relativement faible pour obtenir des résultats comparables au modèle original.
  • Chaque opération arithmétique dans TFHE nécessite un PBS (bootstrapping programmable). PBS est le principal goulot d’étranglement de l’informatique TFHE.
  • La mise en œuvre la plus avancée de TFHE est FPT. Il s’agit d’une implémentation FPGA qui calcule le PBS toutes les 35 microsecondes.

Défis LLM et FES****

Grâce aux progrès des dernières technologies, les meilleures implémentations de chiffrement entièrement homomorphes disponibles aujourd’hui peuvent effectuer une opération arithmétique en seulement 35 microsecondes. Cependant, si l’on considère un modèle aussi complexe que GPT2, 1,5 milliard d’opérations sont nécessaires pour un seul jeton. Cela signifie que le temps de traitement de chaque jeton est d’environ 52 000 secondes.

Pour une meilleure compréhension, pour les modèles de langage, un jeton peut représenter quelque chose comme un caractère ou un mot complet. Imaginez que vous interagissiez avec un modèle de langage où le temps de réponse prend une semaine ou deux ! C’est inacceptable, et un tel retard n’est évidemment pas réalisable pour toute application pratique de la communication ou des modèles en temps réel.

Cela montre que dans le cadre de la technologie de chiffrement actuelle entièrement homomorphe, l’inférence en temps réel reste un énorme défi pour les modèles de langage à grande échelle. Malgré l’importance du chiffrement entièrement homomorphe dans la protection des données, ses limites de performances peuvent rendre difficile son application dans des scénarios réels dans des tâches à forte intensité de calcul. Le besoin d’une interaction en temps réel et d’une réponse rapide peut nécessiter l’exploration d’autres solutions informatiques sécurisées et de préservation de la vie privée.

Solutions potentielles****

Afin d’appliquer un chiffrement entièrement homomorphe à de grands modèles de langage, voici une feuille de route possible :

  1. Traitement parallèle à l’aide de plusieurs machines :
  • À partir de 52 000 secondes/jeton.
  • En déployant 10 000 machines parallèles, nous avons réduit le temps à 5 secondes/jeton. Notez que les grands modèles de langage peuvent en effet être fortement parallélisés, et que l’inférence actuelle est généralement effectuée en parallèle sur des milliers de cœurs GPU ou plus.

2 Transition vers du matériel avancé :

  • À partir de l’amélioration - à partir de 5 secondes/jeton
  • Passez au GPU ou à l’ASIC, nous pouvons atteindre un temps de traitement de 0,1 seconde par jeton. Alors que les GPU peuvent offrir des gains de vitesse plus immédiats, les ASIC peuvent offrir des gains plus élevés en termes de vitesse et de consommation d’énergie, comme le ZPU mentionné plus tôt dans le blog.

Comme le montre la figure, à l’aide de la technologie existante d’accélération des données, l’inférence privée de grands modèles de langage peut être réalisée grâce à un chiffrement entièrement homomorphe. Cela peut être soutenu par un investissement initial à grande échelle mais viable dans un centre de données suffisamment grand. Cependant, cette possibilité est encore mince, et pour les modèles à grand langage plus grands tels que Copilot (12 milliards de paramètres) ou GPT3 (175 milliards de paramètres), il y a encore des lacunes à combler.

Pour Copilot, un débit de jeton plus petit est suffisant car il génère une sortie de code, qui est généralement plus concise que le langage humain. Si nous réduisons le débit requis d’un facteur 8, Copilot peut également atteindre l’objectif de faisabilité.

La dernière lacune peut être comblée en combinant une parallélisation plus importante, de meilleures implémentations et des algorithmes plus efficaces qui guident dans un chiffrement entièrement homomorphe. Chez Ingonyama, nous pensons que les algorithmes sont un élément important pour combler ce fossé, et notre équipe se concentre actuellement sur la recherche et le développement d’algorithmes connexes.

Résumé****

La combinaison de la sécurité d’un chiffrement entièrement homomorphe et de la puissance de calcul de grands modèles de langage peut redéfinir les interactions de l’IA, garantissant à la fois efficacité et confidentialité. Bien qu’il y ait certains défis, grâce à la recherche et à l’innovation continues, nous pouvons parvenir à un avenir où les interactions avec les modèles d’IA tels que ChatGPT sont à la fois immédiates et privées. Cela permettra aux utilisateurs de bénéficier d’une expérience plus efficace et plus sécurisée et favorisera l’adoption généralisée de la technologie de l’IA dans divers domaines

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)