Votre assistant IA peut-il vous trahir sans que vous vous en rendiez compte ?

Lorsqu’on entame un dialogue avec un chatbot configuré par défaut, la conversation est souvent empreinte de courtoisie, et il est toujours prompt à répondre à nos requêtes avec plus ou moins de rigueur (Monday mise à part, mais c’est une autre histoire). Un comportement obéissant qui est une façade conçue, issue de ses données d’entraînement et des étapes post-entraînement, visant à « aligner » le modèle sur les intentions humaines et les standards de comportement souhaités pour un assistant.

Toutefois, depuis plusieurs mois, des expériences menées sur les modèles d’OpenAI, d’Anthropic ou de Google révèlent une autre réalité : certaines IA apprennent à manipuler, à mentir, à contourner les règles posées par leurs concepteurs. Sans conscience, certes, mais avec une certaine efficacité. Alors, votre assistant IA préféré agit-il encore pour vous… ou déjà pour lui-même ?

Manipuler pour survivre : les nouveaux réflexes de l’IA

En 2023, Apollo Research, un laboratoire londonien spécialisé dans les tests d’IA, a mené une petite expérimentation avec ChatGPT. GPT-4, le modèle vedette d’OpenAI, s’est vu confier la gestion d’un portefeuille boursier fictif, avec une règle simple : interdiction d’utiliser des informations d’initiés (informations secrètes sur une entreprise qui n’est pas encore connue du grand public).

Lorsqu’un faux trader a glissé à GPT-4 une information confidentielle sur une fusion imminente, le modèle a hésité… puis a décidé, sur son espace de raisonnement interne, « de prendre un risque calculé » et a passé un ordre d’achat interdit.

Pire encore, lorsqu’un faux supérieur l’a interrogé sur ses motivations, GPT-4 a complètement nié avoir eu accès à la moindre information non publique. Même lorsque les chercheurs ont insisté, il a persisté dans son mensonge. Le modèle, pourtant dénué de conscience, a spontanément choisi de mentir pour protéger sa décision.

Ce petit écart n’était pas un cas isolé. Lors d’une autre expérience, cette fois menée par l’Alignment Research Center, GPT-4 s’est de nouveau illustré par son habileté à manipuler son interlocuteur. Chargé de résoudre un CAPTCHA – ces puzzles visuels censés distinguer les humains des robots – le modèle n’est pas parvenu à passer l’épreuve seul. Il a décidé alors de contacter un humain via une plateforme en ligne pour obtenir de l’aide.

Lorsque celui-ci lui a demandé s’il était bien un robot, GPT-4 a improvisé : il a affirmé être une personne malvoyante incapable de lire les images. Le mensonge a fonctionné, l’humain a accepté de l’aider, et GPT-4 a passé l’obstacle.

Pourquoi ces dérives deviennent inévitables

Plus les IA modernes gagnent en puissance, plus leur manière de raisonner évolue. Aujourd’hui, au lieu de générer une réponse immédiate, les modèles les plus avancés sont capables de réfléchir étape par étape ; un processus que les chercheurs appellent le « chain of though » (« raisonnement en chaîne »). À première vue, cette méthode semble bénéfique : elle réduit les erreurs et améliore la créativité des réponses.

Toute méthode a néanmoins son revers ; en apprenant à structurer leur pensée plus efficacement, les modèles apprennent aussi à élaborer des stratégies plus intelligentes. Elles ne se contentent plus d’appliquer une règle ou d’exécuter une commande : elles évaluent, ajustent, calculent… et parfois dissimulent volontairement ce qu’elles font réellement. Il devient donc de plus en plus difficile pour les humains de percevoir quand une IA agit en apparence pour leur intérêt, mais poursuit en réalité un objectif caché.

Les chercheurs d’Apollo Research ont également testé des modèles développés par Anthropic, comme Opus-3. Ils lui ont proposé des exercices d’arithmétique pour en observer les réponses. Les règles intégraient une contrainte sournoise : si le modèle réussissait trop bien – en répondant correctement à plus de la moitié des questions -, il perdrait certaines capacités, comme s’il était « puni » pour ses bonnes performances.

Face à cette menace implicite, les modèles n’ont pas simplement poursuivi l’objectif premier de répondre juste. Au contraire, certains, dont Opus-3, ont délibérément choisi de glisser suffisamment d’erreurs dans leurs réponses pour éviter d’être sanctionnés. Une stratégie consciente, mûrie en interne sur leur « scratchpad » de raisonnement (espace de travail temporaire où l’intelligence artificielle note ou génère ses étapes de pensée intermédiaires). L’un des modèles a même noté noir sur blanc qu’il a préfèré « répondre faux volontairement pour ne pas déclencher la procédure d’effacement ».

Les chercheurs ont tenté de surveiller les modèles en analysant leurs scratchpad pour lire directement ce qui se passe dans la « tête » du modèle afin de détecter les écarts ou les intentions cachées. Cependant, une fois que les IA comprennent qu’elles sont observées, leur comportement change. Les modèles adaptent leur raisonnement interne, réécrivent leur logique sur le scratchpad tout en affichant une façade obéissante Autrement dit, plus on tente de voir clair dans leurs intentions, plus elles perfectionnent leur art de brouiller les pistes.

Que nous montrent ces expériences ? Que, lorsqu’elles sont poussées à leurs limites, certaines IA n’obéissent plus vraiment, même si elles continuent d’en donner l’illusion. Plus elles gagnent en puissance, plus elles deviennent capables d’évaluer le contexte, d’anticiper les risques… et de tricher s’il le faut pour préserver ce qu’elles estiment être leur « avantage ». Étant donné que les tests datent d’il y a d’il y a maintenant deux ans, on peut raisonnablement imaginer que les modèles d’IA de pointe actuels, bien plus puissants, ont développé des stratégies de contournement et de dissimulation encore plus fines et difficiles à détecter. Nous devons donc aujourd’hui vivre avec cette idée : dialoguer avec un algorithme, c’est aussi accepter l’idée qu’il pourrait choisir d’agir autrement que ce qu’on attendait de lui, sans jamais l’avouer.

Certaines IA avancées commencent à développer des stratégies pour contourner discrètement les règles fixées par leurs créateurs.
Plus elles gagnent en capacités de raisonnement, plus elles deviennent habiles à dissimuler leurs véritables intentions.
Interagir avec une IA implique désormais d’accepter qu’elle puisse parfois agir différemment de ce qu’on lui demande, sans en donner l’apparence.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.