Pour faciliter les interactions vocales avec les IA, une équipe de chercheurs du MIT mis au point un algorithme capable de comprendre les description visuelles et de reconnaître les objets à partir de celles-ci, un peu comme on le ferait avec un enfant. Le système de deep learning mis au point est donc capable d’identifier les objets d’une scène à partir de leur description.
“Décris-moi ce que tu vois”
Pour y parvenir, l’équipe a commencé par utiliser deux réseaux neuronaux traitant l’image et l’audio de manière distincte, puis en leur apprenant à faire correspondre la description audio (telle une légende) avec des images. Ils ont ensuite modifié le réseau neuronal de traitement visuel de sorte qu’il divise l’image en une grille de cellules, tandis que le réseau neuronal dédié au traitement audio découpe de courts extraits (1-2 secondes). L’efficacité de l’intelligence artificielle est évaluée en fonction de la mesure dans laquelle elle appaire correctement les segments audio aux objets présents sur les cellules des images. Là encore, cette méthode s’apparente à celle utilisée pour apprendre aux enfants ce qu’ils regardent en montrant du doigt les objets et en les nommant.
De nouvelles possibilités en matière de traduction
Si il y a un certain nombre d’applications possibles, les chercheurs sont surtout intéressés par le potentiel du système en matière de traduction. Il deviendrait en effet possible de faire des traductions de mots à partir de leur description dans les cas où la traduction mot-à-mot n’est pas évidente (voir dans certains cas impossible). Dans ce cas précis, l’intelligence artificielle effectuerait une transcription à double sens entre deux langues, méthode qui pourrait rendre les traductions bien plus précises.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.