C’est le nerf de la guerre. Pour fonctionner, les IA génératives ont besoin d’un volume de données toujours plus conséquent. En la matière, celles des grands médias d’information sont considérées comme de l’or, car elles sont souvent fiables et de qualité. Il n’est donc pas étonnant qu’OpenAI, le créateur de ChatGPT, ait pendant longtemps puisé sur ces portails avec ses robots. Un jeu du chat et de la souris s’est alors installé entre les sites d’information et les développeurs.
Comment les médias se protègent des IA ?
En voyant leurs données aspirées sans consentement, les éditeurs de presse ont commencé à s’inquiéter. Bon nombre d’entre eux ont déployé des protocoles d’exclusion baptisés robot.txt. Ces derniers permettent aux webmasters d’empêcher les bots de scrapper les données d’un média sans leur accord.
OpenAI a noué de nombreux accords avec des médias
Toujours avide de données pour ses modèles de langage, OpenAI a donc décidé de sortir le carnet de chèques pour obtenir des accords de licence. Pas moins de douze éditeurs, dont de grands noms ont accepté ce type de partenariats. Il en va ainsi de Vox, ou Condé Nast aux États-Unis, ou du Monde et du Financial Times en Europe.
À ce sujet, le PDG du journal britannique expliquait en avril dernier : « Il est normal que les plateformes d’IA payent les publications dont ils utilisent les contenus […] mais au-delà c’est clairement aussi dans l’intérêt des utilisateurs [de ChatGPT] qui doivent avoir accès à des informations fiables ».
Une stratégie payante ?
D’après une analyse réalisée par Originality AI, une start-up spécialisée dans la détection d’IA basée en Ontario basée sur 1000 médias d’information, et relayée par Wired, le taux de blocage pratiqué concernait un peu plus d’un tiers des sites Internet, il est maintenant descendu près d’un quart. Au sein des médias les plus importants, ce taux de blocage est toujours supérieur à 50 %, mais en forte baisse après avoir atteint près de 90 %.
En clair, OpenAI semble avoir adopté une tactique payante pour mieux former ses IA. Reste à savoir si cette tendance est durable. Il est d’ailleurs possible que les médias adoptent des stratégies de blocage s’ils sentent que cela va inciter les éditeurs d’IA à les rémunérer pour accéder à leurs contenus. Pour aller plus loin, on vous invite à relire notre précédent article qui revient sur l’accord noué entre les créateurs de ChatGPT et le Financial Times.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
