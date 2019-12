Nous pouvions apprendre à parler à un humain, voilà maintenant que nous pouvons apprendre à chanter à une machine. À l’est de l’Angleterre, les chercheurs de l’Université de Cambridge ont travaillé de pair avec Amazon, pour concevoir une intelligence artificielle (IA) capable de produire des sons de voix, et créer de la mélodie.

Un travail de synthèse, comme il est toujours indispensable de réaliser pour commencer à « éduquer » une IA, mais qui concernait donc cette fois-ci une synthèse de la voix humaine. Les chercheurs ont donc dû décomposer ce qui nous paraîtrait du plus logique sur une chanson, et reprendre de zéro les bases du chant. Au résultat, le robot serait de plus en plus performant, surprenant des vrais auditeurs humains.

Travailler le chant, de façon robotique

Tout part d’une première base d’apprentissage. Pour pouvoir commencer à éduquer une IA, le point de départ concerne toujours le recueillement d’une quantité importante de matière, pour pouvoir avoir une première base de développement. Avec le robot chanteur d’Amazon et Cambridge, il a fallu un total de 96 chansons a capella, en anglais et chantées par une voix féminine, pour pouvoir enseigner les bases du chant, selon les notes, les puissances de chaque son, le rythme et bien d’autres informations encore.

Les scientifiques se sont félicités d’avoir conçu un programme qui aurait nécessité « considérablement » moins de modélisation, autrement dit du travail de base d’apprentissage qu’il faut ajouter au robot, avant que ce dernier puisse apprendre de lui-même avec la base de données proposée. Il faut dire qu’ils se sont notamment appuyés sur une technologie déjà au point : WaveNet, un programme racheté par Google et permettant de produire des messages vocaux.

Trois étapes de création

Pour l’heure, ni Amazon ni Cambridge n’ont proposé des rendus de leur IA et ses créations musicales. Seuls 22 auditeurs ont été conviés à une séance d’écoute, pour noter de 0 à 100 la qualité des sons synthétisés. Dans des pistes de 3 à 5 secondes, ils devaient donc en juger la qualité et la vraisemblance, et le résultat est déjà très convenable : en moyenne, ils ont accordé la note de 58,9 sur 100.

Mais comment l’intelligence artificielle produit-elle des chansons ? Dans un récent article, les chercheurs ont expliqué le processus de création de l’IA, en mettant en avant trois parties de la fabrication. La première concerne le point d’entrée, entre la musique entendue et la première structure de la chanson. Un encodeur formule des notes en fonction de la musique qu’il entend, et dresse une première ébauche des paroles.

Les deuxièmes et troisièmes étapes sont utilisées pour rendre plus humains les chants. C’est-à-dire qu’un premier traitement va ajouter des différences de longueur dans les notes, en fonction de ce que l’IA aura appris de l’humain, pour éviter que le chant soit plat et saccadé. Le dernier traitement, certainement le plus surprenant, ajoute du niveau de stress et d’intonation dans la parole. C’est certainement l’algorithme qui est le plus difficile à développer, et auquel la synthétisation en partant de faits totalement naturels doit être très difficile.