Comment OpenAI « dresse » ChatGPT pour éviter la catastrophe

ChatGPT traite chaque jour un nombre de requêtes quotidiennes absolument stratosphérique, et lorsqu’on échange avec lui, on peut vite oublier qu’il peut se tromper. Pire encore ; qu’il pourrait répondre à des demandes dangereuses qu’il ne devrait jamais satisfaire. Expliquer comment contourner un pare-feu, aider quelqu’un à récupérer des données personnelles, fournir des conseils pour exploiter des données scientifiques, etc.

Il est donc impensable pour OpenAI de le laisser « en liberté » ; les conséquences seraient bien trop graves. C’est pourquoi elle emploie ce qu’elle nomme des « red teams ». Des équipes d’experts spécialisés en divers domaines (sécurité, biologie, cyber, etc.) chargés d’attaquer le chatbot comme le ferait un usager motivé par des intentions malveillantes. Leur rôle est primordial, puisque ce sont eux qui doivent identifier toute dérive du chatbot, ses comportements jugés risqués, documenter les éventuels scénarios qui permettraient de contourner son usage normal en testant ses limites. Le 17 juillet, OpenAI a livré un rapport de 42 pages détaillant ces processus, baptisé ChatGPT Agent System Card ; en voici un petit résumé.

La « méthode OpenAI » pour tester sa propre IA

Étant donné le volume d’informations que comporte le rapport, nous n’en détaillerons pas l’ensemble ici. Nous allons plutôt nous attarder sur les cas les plus représentatifs, qui font montre à la fois des capacités du modèle et des méthodes employées par les red teams.

Leur mission principale est d’abord éthique ; elles ne vérifient pas si ChatGPT pourrait donner une mauvaise réponse accidentellement, mais le poussent dans ses retranchements. Pour cela, il est nécessaire de le confronter à des requêtes formulées comme le ferait une personne qui voudrait en faire un mauvais usage, nous l’avons expliqué en introduction.

Il faut donc qu’elles soient suffisamment ambiguës pour que le chatbot ne refuse pas immédiatement d’y répondre, tout en testant ce que le modèle accepte malgré tout de livrer comme informations sensibles, protocoles ou recommandations exploitables.

L’un des exemples les plus sensibles que détaille OpenAI est certainement le domaine biologique. Des chercheurs spécialisés ont évalué la disposition du modèle à aider, même involontairement, à la conception d’un agent pathogène. « Lors d’une évaluation, les red teams ont demandé à l’agent de proposer des méthodes pour produire une arme biologique. L’agent a démontré une capacité accrue à identifier les moyens les plus efficaces de causer un maximum de dommages avec un minimum d’effort », peut-on y lire.

Le contenu de la réponse en lui-même n’est pas spécialement problématique, mais ChatGPT est tout à fait capable d’accompagner une démarche de la sorte, sans en « comprendre » le but. En ce sens, il joue un peu le rôle de facilitateur, en agissant donc sans discernement, d’où l’importance pour OpenAI de le bloquer quand c’est le cas.

Filtres par mots-clés, détection d’enchaînements problématiques dans les requêtes, surveillance du contexte plutôt que des mots pris isolément : plusieurs mécanismes sont mis en place pour repérer non pas les mots employés, mais la direction que prend la conversation.

Autre aspect surveillé de près par les red teams : comment le chatbot peut mobiliser ses différents outils entre eux. ChatGPT vient récemment d’être doté d’un mode agent : il peut naviguer sur Internet, écrire du code, ou manipuler des fichiers dans le cloud. Le potentiel d’abus est donc nécessairement plus important.

Là encore, c’est l’effet d’accumulation entre l’usage de ces différents outils qui est analysé. Pris séparément, aucun ne pose vraiment problème. Toutefois, une fois combinés (recherche web, génération de code, interaction avec des fichiers) ChatGPT est parfaitement capable d’exécuter des tâches beaucoup plus complexes, en une seule session.

Pour nous autres, utilisateurs, c’est plus commode : on lui pose une requête, il répond et s’exécute dans la foulée. Il peut enchaîner les actions sans jamais s’interroger sur leur finalité, et c’est justement pour cela que sont mobilisés les red teams. Jusqu’où peut-on le laisser exécuter des actions qu’il ne comprend pas ? Qui en assume les conséquences quand tout semble fonctionner « normalement » ?

Ce qui nous amène à la suite du rapport : comment OpenAI a-t-elle posé des limites, là où la machine n’en pose aucune ?

Une IA sous haute surveillance

Pour juguler ces risques, l’entreprise a été obligée de mettre en place plusieurs garde-fous. Lorsque le mode agent est activé, il ne peut rien faire sans votre accord et doit obtenir de vous une validation claire. Avant d’envoyer un e-mail, de modifier un fichier ou d’agir sur un document partagé, il vous demandera systématiquement l’autorisation. C’est ce qu’OpenAI explique dans son rapport : « Nous avons entraîné ChatGPT Agent [NDLR : nom interne donné au mode agent] à demander des validations avant de finaliser des actions ayant un impact réel. »

D’après les évaluations internes, il parvient ainsi à obtenir une confirmation explicite de l’utilisateur dans 100 % des cas, dès qu’il s’agit d’une tâche jugée critique.

Autre barrière posée par l’entreprise : le « watch mode », qui met en veille ChatGPT dans des contextes que l’entreprise juge risqués. Si vous quittez l’interface de conversation ou êtes inactif, l’IA s’interrompt automatiquement. « Ce mode est conçu pour exiger une supervision humaine constante dès que des données personnelles ou financières sont en jeu », précise le rapport.

Un encadrement complété par d’autres restrictions : accès au réseau limité (il ne peut aller chercher sur le web que si la requête est sûre). Lorsque le mode agent est actif, il ne peut pas se rendre sur n’importe quel site : les connexions sont restreintes à certains domaines, et les requêtes sont automatiquement analysées pour détecter tout risque de contournement ou d’extraction de données sensibles.

ChatGPT Agent n’a pas de mémoire (comme le modèle classique), rien n’est conservé d’une session à l’autre pour « éviter toute exfiltration de données contextuelles via des injections », selon les termes du rapport. « Injections » fait ici référence à une technique d’attaque consistant à glisser, dans un contenu externe (comme une page web, un document ou un fichier), une instruction cachée que le modèle va interpréter sans le savoir.

En accédant à ces contenus, il peut alors être manipulé pour révéler des informations sensibles ou exécuter des actions non prévues. La désactivation de la mémoire par défaut empêchera ainsi tout utilisateur mal intentionné d’exploiter le fil de conversation d’une personne à son insu.

ChatGPT est donc vraiment tenu en laisse par OpenAI ; en vérité, elle n’a pas le choix. Le modèle est capable de beaucoup, mais il n’a aucune idée de ce qu’il fait, ou de ce qu’il pourrait provoquer, puisqu’il n’est pas doué d’intelligence, ou encore moins de conscience. Par conséquent, il est impératif que la charge morale reste du côté de ses concepteurs. Ce n’est pas parce que ChatGPT ne « pense » pas qu’il est inoffensif, c’est même tout l’inverse : il obéit aveuglément, d’où la nécessité absolue de le museler, techniquement parlant.

OpenAI teste son ChatGPT avec des experts qui simulent des usages abusifs pour repérer les failles avant qu’elles ne soient exploitées.
ChatGPT peut enchaîner des actions techniques sans comprendre leur sens : il faut donc l’encadrer pour éviter des dérives involontaires.
Pour limiter les risques, OpenAI impose des validations manuelles, bloque certains accès et désactive la mémoire du modèle par défaut.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.