Passer au contenu

Wikipédia vient de faire un énorme cadeau au secteur de l’IA

Wikipédia lance un jeu de données qui permet aux développeurs d’IA d’accéder aux contenus de son encyclopédie sous un format lisible pour les machines et optimisé pour l’entraînement de l’intelligence artificielle.

Les données sont l’or numérique. Et cela est encore plus valable aujourd’hui, puisque les laboratoires d’IA et les géants de la tech ont besoin d’une quantité astronomique de contenus pour entraîner leurs modèles de langage. En tout cas, ces acteurs de l’intelligence artificielle ont désormais une nouvelle source de contenus à utiliser pour améliorer leurs IA : Wikipédia.

Des robots exploraient déjà l’encyclopédie pour en extraire du contenu. Cependant, l’encyclopédie propose désormais aux développeurs d’IA un moyen plus simple d’obtenir ce contenu. Dans un billet de blog, Wikipédia Entreprise annonce la sortie d’un jeu de données, accessible sur la plateforme Kaggle, qui permet aux développeurs d’accéder à des versions structurées des contenus Wikipédia en anglais et en français.

Wikipédia explique que ce jeu de données a été conçu spécifiquement pour l’entraînement de l’IA et simplifie l’accès à des données immédiatement utilisables. “Au lieu de gratter ou d’analyser le texte brut des articles, les utilisateurs de Kaggle peuvent travailler directement avec des représentations JSON bien structurées du contenu de Wikipédia, ce qui est idéal pour l’entraînement des modèles, la création de fonctionnalités et le test des pipelines NLP”, indique l’encyclopédie.

Une solution aux problèmes de robots

Comme évoqué plus haut, des développeurs utilisent déjà des robots automatisés pour aspirer les contenus de Wikipédia. Cependant, le trafic généré par ces robots pose problème pour l’encyclopédie, qui s’en était plainte, dans un billet publié début avril. “Nous observons une augmentation significative du volume de requêtes, la majeure partie de ce trafic étant générée par des robots d’extraction (scraping bots) qui collectent des données d’entraînement pour les grands modèles linguistiques (LLM) et d’autres cas d’utilisation”, avait écrit l’organisation.

Celle-ci avait également indiqué que la hausse de trafic généré par ces robots augmente les risques pour l’encyclopédie, ainsi que ses coûts. Mais, grâce au jeu de données qu’il vient d’annoncer, Wikipédia espère probablement que les développeurs cesseront d’aspirer son contenu avec des robots, puisqu’il existe désormais une solution plus optimisée.

  • Wikipédia propose un jeu de données qui permettra aux développeurs d’obtenir les contenus en anglais et en français sous un format optimisé pour les travaux dans le domaine de l’IA
  • L’encyclopédie indique qu’au lieu d’aspirer son contenu avec des robots, les développeurs d’IA pourront accéder à un jeu de données plus lisible pour les machines
  • Précédemment, celui-ci s’était plaint de la hausse de trafic provoqué par les robots qui aspirent le contenu pour l’entraînement de l’intelligence artificielle

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.

Wikipedia
Wikipedia
Par : Wikimedia Foundation
4.6 / 5
k694.6 avis