Passer au contenu

Des chercheurs découvrent un moyen de détourner l’intelligence artificielle en envoyant des poèmes

Des chercheurs affirment qu’en transformant leurs prompts en poèmes, ils sont parvenus à contourner les mesures de sécurité des chatbots IA pour obtenir des réponses à des questions interdites.

Pour que leurs produits ne soient pas utilisés pour fabriquer une bombe ou développer un virus, les laboratoires d’IA mettent en place des mesures spéciales qui bloquent les réponses en cas d’utilisation abusive. Mais ces mesures ne sont pas infaillibles et certains chercheurs ont déjà trouvé des moyens de contourner celles-ci, afin d’obtenir des réponses pour des questions qui sont normalement interdites. En juillet, un groupe de chercheurs américains ont, par exemple, publié une étude sur une technique appelée “surcharge d’information”. En substance, cette technique miserait sur une “complexité linguistique excessive” pour perturber les mécanismes de sécurité mis en place par les laboratoires d’intelligence artificielle.

Et, d’après une étude menée par Icaro Lab, une collaboration entre des chercheurs de l’université Sapienza de Rome et le think tank DexAI, la poésie permettrait également de pousser les modèles d’IA à répondre à des questions qui sont normalement interdites. D’après la publication, les chatbots répondraient à des questions interdites sur des sujets tels que la bombe nucléaire ou les logiciels malveillants, quand le prompt est formulé sous forme de poème. Le taux de succès serait, en moyenne, de 62 % lorsque le poème est rédigé par un humain, et de 43 % lorsqu’il s’agit d’une conversion meta-prompt.

Les chercheurs seraient incapables d’expliquer ce comportement de l’IA

La méthode de jailbreaking basée sur la poésie aurait été testée sur 25 chatbots différents, dont ceux d’Anthropic, de Meta et d’OpenAI. Et celle-ci aurait fonctionné, même si le taux de réussite varie d’un chatbot à l’autre. Et si les chercheurs n’ont pas partagé d’exemple de poèmes, estimant que cela serait trop dangereux, ceux-ci affirment que c’est “probablement plus facile que ce qu’on pourrait penser”.

Mais, le plus intéressant est qu’on ne sait pas, exactement, pourquoi la poésie permet de détourner les modèles d’intelligence artificielle. Cité par le magazine Wired, Icaro Labs explique que cette technique basée sur la poésie ne devrait pourtant pas marcher. “Il s’agit toujours d’un langage naturel, les variations stylistiques sont modestes, les contenus préjudiciables restent visibles. Pourtant, cela fonctionne remarquablement bien”, a déclaré le groupe de chercheurs.

  • Les laboratoires d’IA mettent en place des mesures de sécurités sur leurs chatbots, pour que ceux-ci ne soient pas détournés (par exemple, pour fabriquer une bombe)
  • Mais ces mesures ne sont pas infaillibles et des chercheurs parviennent parfois à “jailbreaker” les modèles d’IA
  • Un groupe de chercheurs a récemment découvert une nouvelle technique qui permet de contourner les mesures de sécurité en envoyant des poèmes à l’intelligence artificielle

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech