Une IA conçue par Deezer permet d'associer des chansons à une ambiance

Une IA conçue par Deezer permet d’associer des chansons à une ambiance

Des chercheurs en IA de Deezer ont conçu un système capable d’associer des chansons à des ambiances, une tâche particulièrement difficile à accomplir pour une machine.

Publié le 24 septembre 2018 à 15 h 00 min

Par Louise Millon

Dans un article intitulé « Music Mood Detection Based on Audio Lyrics With Deep Neural Nets » et récemment publié sur Arxiv.org, les chercheurs de Deezer ont indiqué comment ils avaient mis cette nouvelle IA.

Si un humain est largement capable de reconnaître l’ambiance d’un morceau musical, qu’il soit calme ou énergique, il est très difficile de faire de même pour une intelligence artificielle. Ainsi, les chercheurs expliquent « La détection automatique de l’humeur musicale est un domaine de recherche actif… depuis une vingtaine d’années […] Elle consiste à déterminer automatiquement l’émotion ressentie à l’écoute d’un titre. Dans ce travail, nous nous concentrons sur la détection multimodale de l’ambiance en nous basant sur le signal audio et les paroles de la piste ».

Un projet qui pourrait s’avérer utile pour Deezer

Pour se faire, le système conçu par les chercheurs s’est basé sur Million Song Dataset (MSD), une immense base de données de morceaux musicaux dans laquelle certains de ces derniers sont associés à des tags liés à l’ambiance. De la même façon, 14 000 mots anglais recensaient plusieurs ambiances et humeurs, tels que le calme ou l’énergie. Compte tenu du fait que la base de données ne contient que les métadonnées des chansons et non les chansons elles-mêmes, l’équipe de chercheurs a couplé ces informations avec son propre catalogue Deezer. Ainsi, près de 60% de l’ensemble des données obtenues, soit 18 644 pistes, a été exploité pour entraîner l’intelligence artificielle. Les 40% restants ont servi aux essais.

De façon globale, les résultats du système utilisant l’IA ont été plus performants que les approches traditionnelles, bien que celui-ci ne soit pas encore parfaitement au point. Les chercheurs indiquent : « Il semble que ce gain de performance soit le résultat de la capacité de notre modèle à dévoiler et à utiliser des corrélations de niveau intermédiaire entre l’audio et les paroles ».

Par la suite, un tel système pourrait être en mesure d’améliorer les prévisions des futurs modèles afin que ceux-ci soient beaucoup plus précis.

Source