Le “ChatGPT” du darkweb existe déjà (mais vous n’êtes pas invité)

Alors que les modèles de langage continuent de faire le buzz, des chercheurs en ont créé un qui est optimisé pour le dark web.

Publié le 26 juin 2023 à 9 h 00 min

Par Setra

En se basant sur les technologies de Meta et de Google, des chercheurs ont créé DarkBERT
Il s’agit d’une IA entraînée avec les données du dark web (au lieu d’utiliser les données du web classique)
Optimisée pour la face sombre d’internet, DarkBERT peut être utile pour les chercheurs et dans le domaine de la cybersécurité

Depuis plusieurs mois, les IA génératives de type ChatGPT font les titres de la presse. Mais alors que la plupart des laboratoires se focalisent sur le développement de produits basés sur les informations sur web, des chercheurs sud-coréens ont créé une IA d’un genre différent, qui exploite les informations du dark web. Pour rappel, il s’agit de la partie cachée d’internet, dont les caractéristiques favorisent les activités illégales.

Comme l’expliquent les chercheurs, le problème des modèles traditionnels et que ceux-ci ont été conçus pour la partie apparente du net. Pour explorer le dark web, il est nécessaire de comprendre le langage spécifique à cet environnement. Et c’est pour cette raison que ceux-ci ont développé DarkBERT, un “Modèle de langage pour la partie sombre d’internet.”

Pour créer cet outil, les chercheurs se sont appuyés sur l’architecture de RoBERTa de Meta, elle-même basée sur une technologie de Google. Et pour que le modèle s’adapte aux parties les plus sombres du net, celui-ci a été entraîné avec un corps de données provenant du darkweb obtenu en explorant le réseau Tor.

Quelle utilité pour une IA du dark web ?

Si DarkBERT explore les parties sombres du net, celui-ci n’a en revanche pas été conçu pour favoriser les activités illégales. Bien au contraire, ses créateurs estiment que l’outil pourrait être prometteur dans le domaine de la recherche (spécifiquement pour le dark web) et dans le domaine de la cybersécurité. En tout cas, selon la publication, DarkBERT est plus performant que les modèles de langage existants pour analyser le dark web. Et des améliorations sont déjà prévues, dont l’utilisation d’architectures plus récentes ainsi que l’utilisation de plus de données afin que l’IA soit compatible avec d’autres langues (autres que l’anglais).

En ce qui concerne l’éthique, les chercheurs précisent que lors de l’entraînement de DarkBERT, ceux-ci ne se sont pas “exposés” à des contenus tels que la pédopornographie. D’autre part, les chercheurs ont utilisé une technologie de masquage afin que les informations personnelles que l’on peut trouver sur le dark web ne soient pas accessibles. Il est aussi à préciser que pour le moment, l’outil n’est pas accessible pour le grand public, mais cela pourrait changer.

“Bien que nous ayons utilisé à la fois DarkBERT préformé sur du texte prétraité et du texte brut pour nos expériences, nous avons utilisé les deux modèles uniquement à des fins d’évaluation. De plus, nous prévoyons de ne publier que la version prétraitée de DarkBERT afin d’éviter toute mauvaise pratique une fois le modèle rendu public”, lit-on dans la publication scientifique.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.