L'intelligence artificielle, ennemie n° 1 de votre vie privée ?

L’intelligence artificielle, ennemie n° 1 de votre vie privée ?

L’essor de l’IA ouvre certes des perspectives fascinantes. En revanche, cette technologie sophistiquée peut gravement compromettre la confidentialité de vos données personnelles.

Publié le 6 juin 2024 à 20 h 04 min

Par Camille Coirault

L’IA et le machine learning ont révolutionné des domaines extrêmement variés : informatique, finance, recherche médicale, traduction automatique, etc. La liste s’allonge de mois en mois, et ce n’est que le début. Toutefois, ces progrès s’accompagnent d’une question revenant assez fréquemment : celle de l’impact de ces technos sur notre vie privée et la confidentialité. En effet, quel que soit le modèle d’IA dont il est question, ceux-ci sont développés en s’alimentant d’une quantité gargantuesque de données, dont certaines pouvant être assez sensibles.

Quand l’IA mémorise vos secrets

L’un des principaux défis auxquels les entreprises formant des intelligences artificielles sont confrontées réside dans la capacité de ces technologies à apprendre et à mémoriser des motifs complexes issus de leurs données d’entraînement. Cette caractéristique, bien que profitable pour l’amélioration de la précision des modèles (leur éviter d’halluciner, par exemple), n’en représente pas moins un risque certain pour la vie privée.

En effet, les modèles de machine learning (algorithmes ou systèmes qui permettent aux intelligences artificielles d’apprendre à partir des données), lesquels peuvent comporter des milliards de paramètres, à l’instar de GPT-3 qui en comporte 175 milliards, recourent à ce vaste ensemble de données dans le but de minimiser les erreurs de prédiction. C’est ici même que réside le problème : en procédant à l’ajustement de leurs paramètres, ils peuvent involontairement conserver certaines informations spécifiques, y compris des données sensibles.

À titre d’exemple, si des modèles sont formés sur des données médicales ou génomiques, ces derniers peuvent mémoriser des informations privées susceptibles d’être extraites par des requêtes ciblées, mettant ainsi en péril la confidentialité des personnes concernées. Imaginons qu’un piratage informatique ou une fuite accidentelle de données se produisent dans l’organisation qui détient ces modèles, ces informations pourraient être divulguées par des personnes malveillantes.

L’IA et la prédiction des informations sensibles

Les modèles d’IA peuvent également user de données en apparence anodines pour déduire des informations sensibles. Un exemple frappant est celui de l’enseigne Target (chaîne américaine de supermarchés), qui a réussi à prédire des grossesses en analysant les habitudes d’achat des clientes. En croisant des données telles que l’achat de compléments alimentaires ou de lotions non parfumées, le modèle a pu identifier des clientes potentiellement enceintes et leur adresser des publicités spécifiques. Ce cas démontre que même des données semblant banales peuvent révéler des aspects extrêmement personnels de la vie privée.

Malgré les efforts déployés pour limiter la mémorisation des données, la plupart des méthodes actuelles se sont révélées inefficaces. Il y a bien une technique existante actuellement considérée comme étant la plus prometteuse pour garantir une certaine confidentialité dans l’apprentissage des modèles : la confidentialité différentielle. Mais celle-ci n’est pas miraculeuse comme vous allez le voir.

La confidentialité différentielle : une solution imparfaite ?

Pour expliquer simplement ce qu’est la confidentialité différentielle, prenons un exemple simple. Imaginons que vous participez à un sondage, mais que vous n’êtes pas d’accord avec le fait que quelqu’un soit au courant de votre participation ou de vos réponses. La confidentialité différentielle ajoute un peu de « bruit » ou de hasard aux données du sondage, pour que même si quelqu’un accède aux résultats de celui-ci, il ne puisse pas savoir avec certitude quelles sont vos réponses. Elle anonymise donc les données tout en laissant le champ libre aux analyses sans compromettre pour autant votre vie privée.

Cette méthode a été adoptée par des géants du secteur, comme Apple ou Google. Cependant, même parée de cette protection, les modèles d’intelligence artificielle peuvent encore procéder à des conclusions ou des prédictions sur des informations personnelles ou privées. Afin de prévenir de telles violations, la seule solution est de protéger l’ensemble des données transmises à l’organisation, une approche connue sous le nom de confidentialité différentielle locale.

Malgré ses avantages, la confidentialité différentielle n’en présente pas moins certaines limites. Forcément, c’était trop beau pour être vrai. Son principal désavantage est qu’elle peut induire une baisse assez importante des performances dans les méthodes de machine-learning. Conséquences : les modèles peuvent être moins précis et fournir des informations erronées et sont beaucoup plus longs et coûteux à entraîner.

Il y a donc un compromis à trouver entre, d’un côté, l’obtention de résultats satisfaisants et de l’autre une protection suffisante de la vie privée des individus. Un équilibre très délicat qu’il sera indispensable de trouver, et surtout de maintenir à l’avenir tant le secteur de l’IA va continuer à s’étendre. Si celle-ci peut vous aider dans votre quotidien, qu’il s’agisse d’un usage professionnel, personnel ou académique, ne la considérez pas comme l’alliée de votre confidentialité, loin de là.

Les modèles d’IA, lors de leurs entraînements, peuvent conserver des informations sensibles.
À partir de données anodines, ils sont même capables d’en déduire des conclusions compromettant la vie privée.
Une méthode, la confidentialité différentielle, est utilisée pour limiter ce phénomène, mais elle est loin d’être parfaite.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

1 commentaire

Yves Remord dit :

7 juin 2024 à 12 h 03 min

Une question que je me pose depuis l’émergence de l’IA tous azimuts et sa boulimie inextinguible pour le data est sa capacité à différencier une fausse information d’une vraie.
Par exemple, si je m’arrange pour diffuser l’information que [mon vrai nom] est né le [50 ans plus tard qu’en vérité], qu’une IA rapatrie cette info, qu’un utilisateur la découvre, saurais-je envisager qu’à sa connaissance je fêterai bientôt mes 21 ans ? Le cas échéant, pas sûr que je m’efforce de corriger le tir, voyez-vous 🙂

Répondre

Les commentaires sont fermés.