Les grands modèles de langage ont besoin de contenu et Wikipédia est une mine d’or pour tous ceux qui développent cette technologie. De son côté, l’encyclopédie essaie de faciliter l’accès à ces données par les entreprises qui travaillent sur l’intelligence artificielle. Comme le rapportent nos confrères de TechCrunch, Wikimedia Deutschland a récemment annoncé la création d’une nouvelle base de données vectorielle appelée Wikidata Embedding Project, qui va faciliter l’exploitation des contenus de l’encyclopédie par l’intelligence artificielle.
Wikidata proposait déjà des solutions pour permettre aux machines d’exploiter le contenu Wikipédia. Cependant, la technique utilisée par Wikidata Embedding Project facilite cet accès, en particulier pour les projets basés sur l’IA. Par exemple, une IA pourra utiliser ce nouvel outil pour générer des réponses aux questions de l’utilisateur (à la place des recherches classiques basées sur des mots-clés, par exemple). “Le modèle d’intégration est conçu pour saisir la signification sémantique des questions et de leurs réponses. En interrogeant la base de données vectorielle avec une question utilisateur, le système peut renvoyer des éléments Wikidata qui sont sémantiquement alignés avec la requête et qui contiennent potentiellement des déclarations qui répondent à la question”, lit-on sur l’article de Wikidata.
Le nouvel outil est aussi compatible avec le protocole MCP, qui permet aux modèles d’intelligence artificielle de communiquer de manière autonome avec d’autres services. C’est sur ce protocole que de nombreux chatbots s’appuient pour communiquer avec les outils comme Gmail, Google Drive, etc.
Wikipédia facilite déjà l’aspiration de ses données pour l’entraînement de l’IA
Notons que, pour les développeurs qui souhaitent utiliser le contenu des articles Wikipédia, l’encyclopédie propose déjà un autre outil, pour les contenus en anglais et en français, pour faciliter cela.
Le but de ce jeu de données est qu’au lieu de parcourir les articles bruts avec des robots, les développeurs puissent avoir accès à des ressources plus lisibles pour les machines et optimisées pour l’entraînement de l’IA.
- Un nouvel outil permet aux fonctionnalités basées sur l’IA de mieux exploiter le contenu Wikipédia pour répondre aux requêtes des utilisateurs
- L’initiative est menée par Wikimedia Deutschland et la fonctionnalité est compatible avec le protocole MCP, qui permet aux IA de communiquer avec d’autres services
- Wikipédia a déjà lancé un autre outil qui permet d’aspirer son contenu pour entraîner les modèles de langage
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
