Passer au contenu

OpenAI lance GPTBot : comment l’empêcher d’exploiter votre contenu ?

Comme les moteurs de recherche, OpenAI utilise un robot qui explore le web pour collecter du contenu. Ces données peuvent ensuite être utilisées pour entraîner ses modèles. Mais il existe un moyen de bloquer l’exploration de votre site web par ce robot.

  • OpenAI a besoin de données pour améliorer ses modèles (comme ChatGPT) et pour en obtenir, il utilise un robot appelé GPTBot qui explore le web
  • Si vous ne souhaitez pas qu’OpenAI utilise le contenu de votre site web pour améliorer ses produits, vous pouvez vous y opposer
  • OpenAI donne des instructions pour bloquer son robot, GPTBot

Pour entraîner ChatGPT, OpenAI a besoin d’immenses quantités de données. Et récemment, l’entreprise a officialisé GPTBot, son webcrawler. À l’instar des robots de Google ou d’autres moteurs de recherche, ce robot va explorer le web pour trouver des données à exploiter sur les sites web.

“Les pages Web explorées avec l’agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les futurs modèles et sont filtrées pour supprimer les sources qui nécessitent un accès au mur payant, sont connues pour recueillir des informations personnelles identifiables (PII) ou contiennent du texte qui enfreint nos politiques”, peut-on lire dans la documentation d’OpenAI.

L’entreprise qui a créé ChatGPT ajoute qu’en laissant ce robot explorer votre site web, vous pouvez aider les modèles d’IA à être plus précis, et à améliorer ses compétences en général.

Comment bloquer le robot d’OpenAI ?

Cependant, si vous ne voulez pas que le robot d’OpenAI utilise le contenu de votre site web pour améliorer ses modèles, l’entreprise propose également un moyen de vous y opposer. La documentation inclut les informations techniques sur comment bloquer GPTBot. Mais, en substance, pour indiquer au robot que vous ne consentez pas à l’utilisation de votre contenu par OpenAI, il faut ajouter un texte dans le fichier robots.txt sur le site. OpenAI vous permet également d’autoriser l’exploration d’une partie de votre site, et d’autoriser le robot sur d’autres parties.

Ci-dessous, une capture d’écran de la documentation publiée par OpenAI, qui contient les instructions pour bloquer GPTBot.

bloquer GPTBot
© OpenAI

En donnant aux éditeurs de sites web les moyens de bloquer ses robots, OpenAI espère probablement éviter les polémiques sur le sujet. En juin, l’entreprise a été visée par une plainte à aux États-Unis, accusée d’avoir exploité des données sans consentement.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Newsletter 🍋

Abonnez-vous, et recevez chaque matin un résumé de l’actu tech